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内 容 简介 

随 着 互联 网 的 迅速 发 展 ， 几 乎 所 有 工具 软件 和 程序 语言 都 文 持 的 正则 表达 式 也 变 得 越 来 越 强 大 和 易于 
使 用 。 本 书 是 讲解 正则 表达 式 的 经 典 之 作 。 本 书 主 要 讲解 了 正则 表达 式 的 特性 和 流派 、 匹 配 原 理 、 优 化 原 
则 、 实 用 决 加 以 及 调 校 措施 ， 并 评 细 介绍 了 正则 表达 式 在 Perl、Java、.NET、PHP 中 的 用 法 。 

本 书目 第 1 版 开始 痢 力 于 教会 读者 “以 正则 表达 式 来 思考 *"， 来 让 读者 真正 “精通 ”正则 表达 式 。 访 版 对 
PHP 的 相关 内 容 、Javal.5 和 Java1.6 的 新 特性 作 了 可 观 的 扩 元 讲解 。 任 何 有 机 会 使 用 正则 表达 式 的 读者 都 会 
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IT 产业 新 技术 日 新 月 异 ， 令 人 目不暇接 ， 然 而 在 这 其 中 ， 真 正 能 称 得 上 伟大 的 东西 却 窗 灾 无几 。1998 
年 ， 被 誉 为 “软件 世界 的 爱迪生 ”， 发 明了 BSD、TCP/AIP、csh、vi 和 NEFS 的 SUN 首 席 科 学 家 Bil Joy 曾 经 不 无 
调 候 地 说 ， 在 计算 机 体系 结构 领域 里 ， 绥 存 是 唯一 能 称 得 上 伟大 的 思想 ， 其 他 的 一 切 发 明和 技术 不 过 是 在 
不 同 场景 下 应 用 这 一 思想 而 已 。 在 计算 机 软件 领域 里 ， 情 形 也 大 体 相 似 。 如 果 罗 列 这 个 领域 中 的 伟大 发 
明 ， 我 相信 绝 不 会 超过 二 十 项 。 在 这 个 名 单 当 中 ， 当 然 应 该 包括 分 组 交换 网 络 、Web、Lisp、 哈 希 算法 、 
UNIX、 编 译 技术 、 关 系 模 型 、 面 向 对 象 、XML 这 些 大 名 时 易 的 家 伙 ， 而 正则 表达 式 也 绝对 不 应 该 被 漏 
斥 。 正 则 表达 式 具 有 伟大 技术 发 明 的 一 切 特点 ， 它 简单 、 优 美 、 功 能 强大 、 妙 用 无 穷 。 对 于 很 多 实际 工作 
来 讲 ， 正 则 表达 式 简 直 是 灵丹妙药 ， 能 够 成 百倍 地 提高 开发 效率 和 程序 质量 。CSDN 的 创始 人 将 涛 先生 在 
早年 开发 专业 软件 产品 时 ， 束 曾经 体验 过 这 一 工具 的 巨大 威力 ， 并 且 一 直 印 象 深刻 。 而 我 的 一 位 从 事 网 络 
编辑 工作 的 朋友 ， 最 近 也 领略 了 正则 表达 式 的 威力 一 一 他 用 Perl 开 发 了 一 个 不 足 20 行 的 小 程序 ， 使 用 正则 
表达 式 将 一 项 原本 每 天 耗 用 10 人 时 的 工作 在 一 分 钟 之 内 目 动 完成 。 而 正则 表达 式 在 生物 信息 学 和 人 类 基因 
图 谱 的 研究 中 所 发 挥 的 关键 作用 ， 更 是 被 传 为 佳话 。 无 论 对 于 软件 开发 者 ， 还 是 从 事 其 他 知识 工作 的 专业 
人 士 ， 正 则 表达 式 都 是 最 有 利 的 工具 之 一 。 

所 谓 正 则 表达 式 ， 束 是 一 种 描述 字符 串 结 构 模 式 的 形式 化 表达 方法 。 在 发 展 的 初期 ， 这 套 方法 仅 限 于 
描述 正则 文本 ， 故 此 得 名 “正则 表达 式 (regular expression) ”。 随 着 正则 表达 式 研 究 的 深入 和 发 展 ， 特 别 是 
Perl 语言 的 实践 和 探索 ， 正 则 表达 式 的 能 力 已 经 大 大 突破 了 传统 的 、 数 学 上 的 限制 ， 成 为 威力 巨大 的 实用 
工具 ， 在 几乎 所 有 主流 语言 中 获得 支持 。 为 什么 正则 表达 式 具 有 如 此 巨大 的 魅力 ? 一 方面 ， 因 为 正则 表达 
式 处 理 的 对 象 是 字符 串 ， 或 者 抽象 地 说 ， 是 一 个 对 象 序 列 ， 而 这 恰恰 是 当今 计算 机 体系 的 本 质数 据 结构 ， 
我 们 围绕 计算 机 所 做 的 大 多 数 工 作 ， 都 归结 为 在 这 个 序列 上 的 操作 ， 因 此 ， 正 则 表达 式 用 途 广 阔 。 另 一 方 
面 ， 与 大 多 数 其 他 技术 不 同 ， 正 则 表达 式 具 有 超 强 的 结构 描述 能 力 ， 而 在 计算 机 中 ， 正 是 不 同 的 结构 把 无 
差别 的 字 节 组 织 成 千差万别 的 软件 对 象 ， 再 组 合成 为 无 所 不 能 的 软件 系统 ， 因 此 ， 描 述 了 结构 ， 恕 等 于 描 
述 了 系统 。 在 这 方面 ， 正 则 表达 式 的 地 位 是 独特 的 。 正 因为 这 两 点 ， 在 现在 的 软件 开发 和 日 常数 据 处 理工 
作 中 ， 正 则 表达 式 已 经 成 为 必 不 可 少 的 工具 。 如 果 一 个 开发 工具 不 支持 正则 表达 式 ， 那 它 束 会 被 视 为 玩具 
语言 ， 如 果 一 个 编辑 器 不 支持 正则 表达 式 ， 那 它 就 会 被 成 为 阳春 应 用 。 连 人 们 原本 并 不 指望 应 用 正则 表达 
式 的 商用 数据 库 ， 各 家 厂商 也 竞相 以 支持 正则 表达 式 为 卖点 。 正 则 表达 式 的 声势 之 隆 ， 是 考 良 置疑 的 。 

非常 奇怪 的 是 ， 这 样 一 个 了 不 起 的 技术， 在 我 国 却 并 没有 得 到 充分 推广 。 以 其 价值 而 言 ， 正 则 表达 式 
不 但 值得 每 一 个 专业 程序 员 掌 握 ， 而 且 值 得 所 有 知识 工作 者 去 了 解 。 然 而 现实 情况 是 ， 不 但 一 般 知 识 工作 
者 大 多 轩 所 未 闻 ， 很 多 专业 程序 员 也 视 之 为 苦 途 。 为 什么 会 出 现 这 种 情况 呢 ? 原因 有 二 。 其 一 ， 正 则 表达 
式 产 生 和 发 展 在 UNIX 文化 体系 之 中 ， 而 我 国 软 件 开发 社 群 的 知识 结构 长 期 受到 微软 的 决定 ，UNIX 文 化 影 
啊 甚 徽 。 在 2002 年 推出 .NET 平台 之 前 ， 微 软 在 其 各 项 主流 平台 、 产 品 与 开发 工具 当中 ， 均 未 对 正则 表达 式 
给 予 足 够 的 重视 ， 相 应 地 ， 我 们 的 开发 者 们 对 正则 表达 式 也 就 知之 不 多 。 第 二 ， 也 是 更 重要 的 原因 ， 就 是 
正则 表达 式 并 不 是 那么 好 掌握 的 ， 在 通 疝 芍 驶 正则 表达 式 强 大 力量 的 道路 上 ， 还 是 有 那么 几 只 拦路 虎 的 ， 
而 要 打 虎 过 岗 ， 不 但 要 花 点 功夫 ， 还 要 有 正确 的 方法 。 

学 习 正 则 表达 式 ， 入 门 不 难 ， 看 一 些 例 子 ， 试 着 模仿 模仿 ， 束 可 以 粗 通 ， 并 日 在 工作 中 解决 不 少 问 
题 。 然 而 大 部 分 学 习 者 也 就 就 此 止步 ， 他 们 对 自己 说 :“ 正 则 表达 式 不 过 如 此 ， 我 就 学 到 这 里 了 ， 以 后 现 用 
现 学 就 行 了 。” 他 们 以 为 自己 可 以 像 学 习 其 他 技术 一 样 ， 在 实践 中 逐渐 提高 正则 表达 式 的 应 用 水 平 。 然 而 事 
实 上 ， 正 则 表达 式 并 不 是 每 天 都 会 用 到 ， 而 其 密码 般 的 形象 ， 随 着 时 间 的 推移 很 容易 被 忘记 ， 所 以 经 和 常 发 
生 的 情况 是 ， 开 发 者 对 于 正则 表达 式 的 记忆 迅速 消 褪 ， 每 次 遇 到 新 的 问题 ， 都 要 查 资料 ， 重 新 唤 回 记忆 ， 
对 于 稍微 复杂 一 点 的 问题 ， 只 好 求助 于 现成 的 解决 方案 。 反 反复 复 ， 长 期 如 此 ， 不 但 应 用 水 平 难 以 明显 提 
升 ， 而 且 会 对 这 项 技术 逐渐 产生 一 定 的 区 惯 感 和 大 烦 情绪 。 这 还 只 是 应 用 阶段 ， 正 则 表达 式 应 用 的 高 级 阶 
段 ， 要 求 开 发 者 还 必须 充分 理解 正则 表达 式 的 能 力 范 围 ， 能 够 将 一 些 正 则 表达 式 技 术 组 合 应 用 ， 达 成 超 乎 
一 般 想 像 的 效果 。 为 了 高 效 、 正 确 地 解决 实际 问题 ， 有 的 时 候 甚 至 要 求 深入 理解 正则 表达 式 的 原理 ， 甚 至 
对 于 如 何 实现 正则 表达 式 引 苟 都 要 有 所 了 解 ， 在 此 基础 上 ， 规 避 陷 阱 ， 优 化 设计 ， 提 高 程序 执行 效率 。 要 
达到 这 样 的 程度 ， 不 经 过 系统 的 学 习 是 不 可 能 的 。 

系统 学 习 正 则 表达 式 并 不 是 一 件 容 易 的 事情 ， 仅 仅 通 过 阅读 一 些 *HOW TO” 的 快餐 式 文章 是 不 行 的 ， 
必须 有 更 完整 、 更 系统 的 资料 指导 学 习 。 如 果 你 在 国外 技术 社区 里 询问 如 何 才能 系统 学 习 正 则 表达 式 ， 几 
乎 所 有 的 领域 专家 都 会 癌 你 推荐 一 本 书 一 Jeffrey Fri 加 生生 He ww Wl 
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笠 握 正则 表达 却 ， 想 要 建立 关于 这 一 扩 术 的 完整 概念 体系 ， 想 充分 及 挥 其 巨大 能 量 ， 这 本 书 几 乎 是 无 法 经 
开 的 必 经 之 路 。 其 至 可 以 说 ， 如 末 你 没有 读 过 这 本 书 ， 那 么 你 对 于 正则 表达 式 的 理解 和 应 用 能 力 一 定 达 不 
到 升 笃 入 室 的 程度 。 本 书 第 1 版 出 版 于 十 年 之 前 ， 目 那 时 起 它 束 成 为 正则 表达 式 领 域 最 全 面 、 最 受 欢 迎 的 
代表 普 作 ， 数 以 万 计 的 读者 通过 这 本 书 沿 握 了 正则 表达 式 ， 成 为 行家 里 手 。 在 任何 时 候 ， 任 何 地 方 ， 只 要 
所 到 正则 和 表达 云 兰 作 ， 人 们 都 会 所 到 这 本 书 。 这 本 书 的 质量 之 高 ， 声 营 之 感 ， 使 得 几乎 没有 人 企图 挑战 它 
0 

为 什么 这 本 书 能 够 表现 得 如 此 出 色 ? 我 认为 这 其 中 有 三 个 原因 。 其 一 ， 作 者 本 人 具有 多 年 程序 开 友 经 
验 ， 理 论 基 础 深厚 ， 实 战 经 验 丰 是， 对 正则 表达 式 这 个 主题 透彻 理解 ， 因 此 在 技术 上 得 心 应 手 ， 压 气 十 
在 ， 对 于 技术 上 的 难 扣 不 回避 、 不 含糊 。 作 者 高 超 的 技术 水 平 是 本 书 质 量 的 强大 你 证 。 其 二 ， 作 者 思路 对 
涉 ， 系 材 组 织 得 当 ， 用 例 丰 师 。 正 则 表达 式 根 植 于 数学 理论 ， 却 又 能 在 日 妾 俗 事 上 友 挥 巨大 的 效用 。 写 这 
PIAA, TERA lie, ICA HAZE TEER, Are AEE, WE ABU, AE AMER, Whe ABE, 
实在 很 难 把 握 。 作 者 清楚 地 认识 到 ， 这 本 书 的 读者 不 是 计算 机 和 科学家， 但 也 不 十 满足 于 “ 知 其 然而 不 知 其 所 
以 然 ” 的 快餐 式 代 码 小 子 ， 而 是 具有 一 定理 论 素 养 ， 却 又 始终 以 实践 为 本 的 专业 开 肥 者 。 他 们 需要 的 是 面 问 
实践 的 理论 和 思想 ， 是 实 实在 在 的 实战 能 力 ， 只 有 满足 这 种 需要 ， 才 能 够 真正 打动 读者 。 退 读 此 书 ， 可 以 
说 作者 对 这 一 路 线 的 把 握 十 分 成 功 ， 你 证 了 内 容 大 方 回 的 正确 。 其 三 ， 这 本 书 的 写法 独具匠心 ， 堪 称 典 
范 。 技 术 图 书 的 主要 使 命 是 传播 专业 知识 。 而 专业 知识 分 为 框架 性 知识 和 具体 知识 。 框 染 性 知识 需要 通过 
系统 的 阅读 和 学 习 和 掌握 ， 而 大 量 的 具体 知识 ， 则 主要 通过 日 第 工作 的 积累 以 及 随 用 随 但 的 的 学 习 来 逐渐 填 
充 起 来 。 本 书 击 六 章 ， 以 顺序 式 记 述 的 方式 ， 将 正则 表达 式 的 系统 知识 九 九 道 来 ， 读 者 像 看 故事 书 似 的 束 
建立 起 整个 正则 表达 式 的 基本 知识 体系 。 而 后 面 的 内 容 ， 则 是 方便 实际 开 友 中 频 友 但 阅 之 用 ， 包 括 各 大 主 
流 语言 对 正则 表达 式 的 支持 细节 ， 包 含有 大 量 案例 。 这 样 的 写法 ， 完 全 符合 一 般 人 学 习 的 特点 ， 因 此 书 读 
起 来 非 第 居 意 ， 非 第 有 趣 ， 用 的 时 候 公 起 来 义 非 第 方便 。 这 样 的 闭 述 风格 ， 实 在 值得 学 习 。 

读者 可 以 在 没有 任何 正则 表达 式 的 基础 上 开始 阅读 此 书 ， 只 要 动 动脑 ， 加 强 理 解 ， 适 当 动 手 练习 ， 将 
能 够 在 不 长 的 时 间 里 掌握 正则 表达 式 的 思想 和 技术 精华 ， 这 一 扣 已 经 锐 很 多 人 验证 过 ， 我 本 人 也 是 这 本 书 
的 党 得 者 之 一 。 正 因为 这 本 书 独 一 无 二 的 地 位 和 高 度 的 可 读 性 ， 也 因为 正则 表达 却 作 为 一 项 了 不 起 的 技术 
及 明 所 具有 的 巨大 威力 ， 我 非常 希望 更 多 的 读者 能 够 通过 认真 地 学 习 本 书 而 和 营 握 这 一 蝇 大 撤 术 ， 并 于 党 这 
项 技术 市 来 的 快乐 。 
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2007 年 7 月 于 北京 


[| 日 日 Linux[| || www.linuxidc.com [] [] 
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《精通 正则 表达 式 〈 第 3 版 ) ) CEN Mastering Regular Expression, 3rd Edition) 是 一 本 好 书 。 

我 还 记得 ， 目 己 刚 开始 工作 时 ， 束 遇 到 了 关于 正则 表达 式 的 问题 〈 从 此 被 逼 上 架 山 ) : 奢 从 文本 中 抽 
取 E-mail 地 址 ， 还 可 以 用 衬 符 串 来 得 找 《“ 先 定位 到 @， 然 后 癌 两 病 查 找 ) ， 知 要 抽取 URL， 人 简单 的 文本 奉 
找 束 无 能 为 力 了 。 正 当 我 一 筹 英 展 之 时 ， 项 目 经 理 说 :“ 可 以 用 正则 表达 式 ， 去 网 上 找 找 资料 吧 。” 抱 着 这 
根 救 命 稻草 ， 我 搜索 了 之 前 只 是 昕 说 过 名 衬 的 正则 表达 式 的 资料 ， 并 打印 了 java.util.regex《 开 发 用 的 Java) 
SOM RA. TRASK, RNR, KIL Aa, ABA, BA. 

此 后 ， 用 到 正则 表达 式 的 地 方 越 来 越 多 ， 我 也 越 来 越 感觉 到 它 的 重要 ， 然 而 使 用 起 来 却 电 感觉 捉 衬 见 
肘 。 当 时 是 夏天 ， 北 京 非常 热 ， 我 决定 下 班 之 后 不 再 看 急 赶 车 回 家 ,而 古 在 公司 安心 看 看 技术 文档 ， 于 古 
狠 近 了 这 本 Mastering Regular Expression。 该 书 原 文 是 相当 通畅 易 懂 的 ， 看 完全 书 大 概 伦 了 我 一 周 的 业余 时 
半 ， 之 后 便 如 拨 云 见 日 ， 感 沉 家 然 开明 一 一 原来 正则 表达 式 可 以 这 样 用 ， 真 是 奇妙 ， 令 人 提案 叫绝 。 

此 后 我 运用 正则 表达 式 便 不 用 再 看 什么 资料 了 ， 克 其 量 束 是 玛 租 语言 的 共 体 文档 ， 表 达 陈 的 基本 模型 
和 和 思路， 完全 是 在 阅读 本 书 时 确立 的 。 也 正 是 因为 细心 阅读 过 本 书 ， 所 以 有 时 我 能 以 正则 表达 式 解 决 菜 些 
复 林 的 问题 。 我 的 朋友 施 培 强 〈Tinyfool， 昵 称 Tiny〉 曾 问 过 我 这 样 一 个 正则 表达 式 的 问题 ， 在 Apache 服 务 
人 独 鸭 Rewrite 规 则 中 ， 怎 样 以 一 个 正则 表达 式 匹 配 “ 除 两 个 特定 子 域名 之 外 的 所 有 其 他 子 域名 ， 其 他 人 的 办 
法 都 无 法 满足 要 求 : 要 么 只 能 岂 配 这 两 个 特定 的 子 域名 ， 要 么 必须 依赖 程序 分 文才 能 进行 判断 。 其 实 这 个 
问题 ， 是 可 以 用 一 个 正则 表达 却 匹 配 的 。 事 后 ，Tiny 说 ， 看 来 ， 会 用 正则 的 人 很 多 ， 但 真正 懂得 正则 的 人 
很 少 。 现 实情 况 也 确实 如 此 ， 就 我 所 见 ， 不 少 同仁 对 正则 表达 式 的 运用 ， 大 多 是 从 网 上 找 些 现成 的 表达 
Wo GAA ACW RSH, (ARAL RRA, REET ERIE ERIK ATE AT AN 
FAR SE DA, FIAT OR Ue, SSS nal, EEA AEA, RB Soe, Tiny Ae 
面前 ， 更 是 束 手 无 沉 ， 一 筹 葛 展 。 

瓯 我 个 人 来 说 ， 我 所 掌握 的 正则 表达 式 的 知识 ， 绝 大 多 数 来 目 本 书 。 正 是 依靠 这 些 知 识 ， 我 几乎 能 以 
正则 表达 式 进 行 目 己 期 望 的 任何 文本 处 理 ， 所 以 我 相信 ， 能 够 耐心 读 完 这 本 书 的 读者 ， 一 定 能 深入 正则 表 
达 式 的 世界 ， 硅 再 加 以 练习 和 思考 ， 束 能 邵 练 地 依 徘 它 解 决 各 种 复 林 的 问题 (其 中 束 包 括 类 似 Tiny 的 问 
题 ) 了 。 

去 年 ， 通 过 霍 炬 〈Virushuo) 的 介绍 ， 我 参加 了 博文 视点 的 试 详 活 动 ， 很 生 运 地 获得 了 翻译 本 书 的 机 
会 。 有 机 会 与 大 家 分 享 这 样 一 本 好 书 ， 我 深 感 荣幸 。500 多 页 的 书 ， 拖 拖拉 拉 ， 也 花 了 半年 多 的 时 间 。 虽 然 
之 前 谈 过 原 兰 ， 积 累 了 一 些 运 用 正则 表达 陈 的 经 验 ， 也 翻译 过 数 十 万 字 的 资料 ， 但 要 尽 可 能 和 准确、 贴切 地 
传达 原文 的 阅读 感 殊 ， 我 仍 感 颇 费心 力 。 部 分 译文 在 确认 理解 原文 的 基础 上 ， 要 以 人 符合 中 文 习 惯 的 方式 加 
以 表述 仍然 鼎 费 周折 例如， 和 朋 详 的 “正则 表达 式 确 实 容 许 出 现 这 种 错误 ”， 原 文 的 意思 是 “这 样 的 错误 超出 
了 正则 表达 式 的 能 力 ”， 最 后 修改 为 “出 现 这 样 的 错误 ， 不 能 怪 正 则 表达 式 ? 或 “这 样 的 问题 ， 错 不 在 正则 表 
ASW) 。 男 有 部 分 词语 ， 叶 可 详 为 中 文 ， 但 为 你 证 阅读 的 流畅 ， 没 有 翻译 《例如 ,，“ 它 包含 特殊 和 一 般 两 
个 部 分 ， 特 殊 部 分 之 所 以 是 特殊 的 ， 原 因 在 于 ..…..…. ”， 此 处 special 和 normal 是 专 指 ， 故 翻译 为 “ 它 包含 
special 和 normal 两 个 部 分 ，special 部 分 之 所 以 得 名 ， 原 因 在 于 ..…...”) ， 这 样 的 处 理 ， 相 信和 不 会 影 啊 读者 
的 理解 。 

在 本 书 翻译 结束 之 际 ， 我 首先 要 感谢 堆 炬 ， 他 的 引 存 让 我 获得 了 翻 译 这 本 书 的 机 会 ， 还 要 感谢 博文 视 
点 的 周 移 老师 ， 她 讶 慎 严 格 的 工作 态度 ， 时 刻 提 醒 我 不 能 乌 席 对 竺 这 本 经 典 之 作 ; 还 有 本 书 的 责编 晓 菲 ， 
她 为 本 书 的 编辑 和 校对 做 了 大 量 细致 而 深入 的 工作 。 

另外 我 还 要 感谢 东北 师范 大 学 文学 院 的 王 确 老师 ， 在 我 求学 期 间 ， 王 老师 给 予 我 诸多 指点 ， 离 校 时 间 
愈 长 ， 愈 是 怀念 和 庆 斑 那 段 经 历 ， 可 以 说 ， 没 有 与 他 的 相识 ， 便 没有 我 的 今天 。 

翻译 过 程 中 ， 我 虽 力 求 把 握 原 文 ， 语 言 通畅 ， 但 翻译 中 的 钳 误 或 许 是 在 所 难免 的 ， 对 此 本 人 愿 负 全 部 
责任 。 和 希望 广大 旋 者 发 现 错误 能 及 时 与 我 和 出 版 社 联系 以 便 重 印 时 修正 ， 或 是 以 勤 误 的 形式 公布 出 来 以 惠 
及 其 他 读者 。 如 果 读 者 有 任何 想法 或 建议 ， 欢 迎 给 我 写 信 ， 我 的 邮件 地 址 是 : yusheng.regex@gmail.com。 

如 今 正则 表达 式 已 经 成 为 几乎 所 有 主流 编程 语言 中 的 必 备 元 系 : Java, Perl, Python, PHP. Ruby...... 
并 不 如 此 ， 甚 至 功能 稍 强 大 一 些 的 文本 编辑 工具 ， 痢 支持 正则 表达 式 。 尤 其 是 在 Web 兴起 之 后 ， 开 及 任务 
中 的 一 大 部 分 甚至 全 部 ， 都 是 对 字符 串 的 处 理 。 相 比 简 单 的 字符 串 比 较 、 查 找 、 蔡 换 ， 正 则 表达 式 提 供 了 
强大 得 多 的 处 理 能 力 《〈 最 重要 的 是 ， 它 能 够 处 理 “ 符 合 荣 种 抽象 模式 ?的 字符 串 ， 而 不 是 固化 的 、 有 具体 的 字 
AF) 。 吻 练 运用 它们 ， 能 够 节省 大 量 的 开发 时 间 ， 其 至 解决 一 些 之 前 看 来 是 mission impossible 的 问题 。 

本 书 是 讲解 正则 表达 式 的 经 典 之 作 。 其 他 介绍 进 则 换 标 物 的 资 油 x| 往 往 局 陋 久 原作 的 迹 梁 机 @D 数 的 讲 | | 





















































欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 


Linux 公 社 (www.Linuxidc.com) 于 2006 年 9 月 25 日 注册 并 开通 网 站 ，Linux 现 在 已 经 成 为 
一 种 广 受 关 注 和 支持 的 一 种 操作 系统 ，IDC 是 互联 网 数据 中 心 ，LinuxIDC 就 是 关于 Linux 
的 数据 中 心 。 


Linux 人 公社 是 专业 的 Linux 系 统 门 户 网 站 ， 实 时 发 布 最 新 Linux 资 讯 ， 包 括 Linux、Ubuntu、 
Fedora、 了 RedHat、 红 旗 Linux、Linux 教 程 、Linux 认 证 、SUSE Linux. Android. Oracle, 
Hadoop, CentOS, MySQL, Apache, Nginx, Tomcat, Python, Java, CEF. 


OpenStack、 集 群 等 技术 。 

Linux 公 社 (LinuxIDC.com) 设置 了 有 一 定 影 啊 力 的 Linux 专 题 栏 目 。 
Linux 公 社 主 站 网 址 : www.linuxidc.com 

Linux 公 社 资源 站 网 址 : linux.linuxidc.com 


Linux 公 社 手 机 站 网 址 : m.linuxidc.com 
旗下 网 站 : www.linuxidc.net 


包括 : Ubuntu 专题 Fedora 专题 Android 专题 Oracle 专题 Hadoop 专题 
RedHat 专题 SUSE 专题 红旗 Linux 专题 CentOS 专题 


和 用 -IIUIXK 公 社 
www.Linuxidc.com 


Linux 公社 微 信 公众 与 : linuxidc com 








解 ， 于 语法 细节 处 着 誉 大 多， 忽略 了 正则 表达 式 本 里 。 这 样 ， 诸 者 虽然 对 关于 正则 表达 式 的 具体 规定 有 所 
了 解 ， 但 终究 是 只 见 树木 不 见 森 林 ， 过 上 复 林 的 情况 ， 往 往 束 手 无 案 ， 淮 步 维 艰 。 而 本 书目 第 1 版 开始 便 
着 力 于 教会 读者 “以 正则 表达 式 来 思考 (think regular expression) ”， 问 读者 讲授 正则 表达 式 的 精髓 《正则 
表达 式 的 各 种 流派 、 还 配 原 理 、 优 化 原则 ， 等 等 ，， 而 不 拘泥 于 具体 的 规定 和 形式 。 了 解 这 些 精 人 髓 ， 再 辅 
以 具体 操作 的 文 要 ， 旋 者 便 可 做 到 “胸中 有 巨人 千 ， 下 笔 如 有 神 ”; 即便 问题 无 法 以 正则 表达 式 来 解决 ， 谈 者 
也 能 很 快 作出 判断 ， 而 不 必 育 目 竹 试 ， 徒 费 工 夫 。 

不 了 解 正则 表达 式 的 旋 者 ， 可 循序 渐进 ， 依 次 阅读 各 草 ， 即 便 之 前 完全 未 接触 过 正则 表达 式 ， 访 过 前 
两 草 ， 也 能 在 心中 摘 绘 出 概略 的 图 谐 。 第 3、4、5、6 章 是 本 书 的 重点 ， 也 是 核心 价值 所 在 ， 它 们 分 别 介绍 
了 正则 表达 式 的 符 性 和 流派 、 匹 配 原 理 、 实 用 记 轩 以 及 调 校 措施 。 这 样 的 知识 与 具体 语言 无 天 ， 适 用 于 几 
乎 所 有 的 语言 和 工具 (当然 ， 如 果 使 用 DFA3 引 擎 ， 第 6 草 的 价值 要 打 些 打 扣 ) ， 上 所 谓 “ 大 象 无 形 ”， 便 是 如 
此 。 旋 者 如 能 仔细 研 谈 ， 巷 心 拉 麻 ， 之 后 解决 各 种 问题 时 ， 必 定 获 巷 匪 线 。 第 7、8、9、10 章 分 别 讲解 了 
Perl、Java、.NET、PHP 中 正则 表达 式 的 用 法 ， 看 来 类 似 参 考 手 册 ， 其 实 是 对 前 面 4 EARRA, Ah 
象 的 知识 辅 以 具体 的 语言 规定 ， 以 具体 的 形式 表现 出 来 。 所 以 ， 心 急 的 读者 ， 在 阅读 这 些 章节 之 前 ， 最 好 
先 通 讯 第 3、4、5、6 间 ， 以 便 更 好 地 理解 其 中 的 逻辑 和 思路 。 

相信 仔细 阅读 完 本 书 的 读者 ， 定 会 有 登 蚂 入 室 的 感觉 。 不 但 能 见识 到 正则 表达 式 各 种 令 人 眼花 综 乱 的 
特性 ， 更 能 够 深入 了 解 表 达 式 、 逻 配 、 引 苟 背 后 的 原理 ， 从 而 写 出 复杂 、 神 奇 而 义 融 效 的 正则 表达 式 ， 快 
速 地 解决 工作 中 的 各 种 问题 。 











2007 年 6 月 于 北京 


[| 日 日 Linux[| || www.linuxidc.com [] [] 
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博文 视点 的 张 春 雨 编辑 告诉 我 ， 八 次 印刷 的 《精通 正则 表达 式 〈 第 3 版 ) 》 已 经 全 部 售 整 了 ，O'Reilly 
与 电子 工业 出 版 社 续签 了 版 权 合同 ， 准 备 重 新 上 市 ， 让 我 写 一 点 东西 。 

该 写 什 么 好 呢 ? 

2007 年 《精通 》 上 市 时 ， 我 还 在 中 关 村 ， 天 气 好 的 时 候 可 以 望 见 项 和 园 的 佛 香 阁 ; 而 现在 ， 窗 外 景色 
已 经 换 成 了 珠江 边 的 小 蛮 腰 ;对 正则 表达 式 的 使 用 ， 也 从 随手 持 来 变 得 生 朴 一 一 许多 问题 需要 翻 在 《 精 
ee ee 究 其 原因 ， 与 正则 表达 式 直 接 相 关 的 开发 做 得 少 了 ， 古 话说 “ 勤 则 立 ， 
Gee”, Wie IX Ms 

En J, BRIAR, BAAR SA BA, BERRE, FES eRe AREAS EU eA sh 
解决 ， 该 怎样 解决 。 或 者 说 ， 虽 然 手 上 生 琉 了 ， 心 里 其 实 没 有 和 态 记 ， 而 这 一 切 ， 归 源 都 是 之 前 死 哺 过 《 精 
通 》 的 缘故 。 

在 阅读 《精通 》 之 前 ， 我 已 经 查阅 了 网 上 的 不 少 资料 ， 对 正则 表达 式 有 了 基本 了 解 ， 能 像 模 像 样 地 解 
决 一 学 实际 问题 ， 可 算 “ 吕 用 ”了 J。 这 时 候 过 见 《精通 》 这 样 :现实 价值 不 那么 大 "的 书 ， 能 静 下 心 去 阅读 








FSi UAW eT, Ree ate EA lta. ATU, 书包 下 本 情理 这 之 类 看 来 没 多 少 实用 价值 的 
知识 ， 还 会 愿意 IER Ta) HAE 研习 。 回 头 想 想 ， 也 正 是 因为 当时 有 这 种 盆 气 ， 可 算是 意外 的 收获 : 工作 


Ze it ee] HR TAR, BASIN Ses, (ARAM Mat: EZT, 正则 表达 式 却 是 
学 到 了 “不 会 态 ” 的 程度 。 更 典型 的 例子 是 游泳， 几乎 人 人 都 可 以 做 到 “一 孙 学 会 ， 终 里 不 饼 "?。 同 样 是 “学 
会 ”， ANA ABER KM? 

INS a RAR SRA, REVERE, “学 会 ?的 定义 是 不 同 的 。 

BERNE SA TREIER, EINER, MEERA”, WAW ANEL (Google) 解决 
J ell” AS) ERE KH Python y —A ila, EULER “aes” S Python, UME ea Google, Waele ya 
成 的 代码。 而 我 们 说 * 学 会 "了 游泳 ， 意 思 是 可 以 在 水 里 行动 容 不 沉 下 去 ， 更 重要 的 是 在 游泳 时 不 需要 时 刻 

preg Ne — ih -— El] 7k R SPP Ue. ， 如 果 你 在 泳池 里 必须 说 记 口诀 ， 是 绝对 谈 不 
“学 会 ”的 。 

PRS BRIA ABA FS”, SERA ATE SE: 第 一 种 “学 会 ?是 “ 赂 狂 男 席 "， 第 二 种 “学 会 ”是 “融会 员 通 ”， 虽 然 
部 可 以 解 次 问题 ， 但 从 第 Hea HL HER AEA 要 经 历 漫长 的 过 程 。 而 且 ， pee eh 
能 解决 问题 ， 所 以 在 达到 第 二 种 “学 会 ”的 漫长 过 程 中 ， 你 很 可 能 感 党 不 到 目 己 的 进步 ， 反 而 会 困惑 继续 

JENDEA RA e a TRIO REHL, 为 什么 要 去 理解 背后 的 原理 呢 。 
or Ee oe” DY IE Ah re eT LAN, RERS LE ANS Ss  — T Tt — 
倍 ， 遗 态 的 难度 将 会 增加 十 倍 、 二 十 倍 甚 至 一 百倍 。 这 些 年 来 ， 我 见 到 了 太 多 这 样 的 例子 ， 有 人 每 次 用 到 
正则 才 达 式 都 会 抓 三 ， 都 要 四 处 极力 搜索 、 REA aw, FEAR TRIN [EIA eS BEART SE 男 一 方 
a 草花 时 间 潜 心 学 习 《 精 通 》 这 样 的 经 典 。 因为 反复 遗忘 ， 需 要 反复 学 习 ， 最 余 浪费 了 大 鲁 

时间 

许多 人 不 愿意 专门 伦 时 间 来 学 习 正 则 表达 式 ， 是 认为 它 属 于 奇 技 译 巧 ， 并 非 工 作 必 须 。 但 这 理由 是 不 
PITA: 我 们 大 部 分 人 不 是 作家 ， 但 为 了 在 需要 的 时 候 写 得 出 文章 ， 还 是 必须 专门 花 时 间 来 练习 写作 。 而 
且 ， 专 门 花 时 间 来 学 习 “ 非 必要 ”的 技能 ， 以 后 往往 能 有 意 想 不 到 的 收获 。 我 真切 体会 到 并 日 懂 得 这 个 道 
理 ， 恰 好 也 是 与 《精通 》 的 翻译 有 缘 。 

在 翻译 《精通 》 时 ， 为 了 省 却 重 新 编排 索引 的 麻烦 ， 需 要 做 到 中 英文 版 页 页 对 应 ， 于 是 我 专门 学 习 了 
REESI KWord ”排版 记 术 》， 并 且 杀 手 符 试 了 每 个 例子 ， 记 邵 了 有 关 的 概念 和 术语 ， 从 此 学 会 了 运 
用 格式 和 样式 的 角 虚 定义 文档 ， 再 不 用 为 格式 之 类 的 问题 烦恼 。 这 些 年 来 ， 虽 然 用 得 并 不 多 ， 却 没有 瑟 
a ee oe 我 事先 完整 定义 了 各 种 格式 、 样 式 、 引 用 等 ， 交 稿 时 节省 了 目 己 和 出 版 社 

量 有 的 时 间 
为 一 个 例子 仍然 与 正则 表达 式 有 关 。 去 年 ， 为 了 写作 《正则 指引 》 中 Unicode 的 章 市 ， 我 专门 花 了 时 间 
研读 Unicode 规 范 ， 虽 然 最 终 《 指 引 》 中 没有 列 出 学 到 的 全 部 知识 ， en nese e d 
程序 中 设 定 Unicode ISBNa”. ALA, AMEE] Unicode FA CU+00C4) 无 法 打印 的 问题 ， 于 是 
我 建议 他 使 用 A 和 (U+0041 和 U+0308) 的 两 个 Unicode 字 符 来 表示 aya 两 个 字符 可 以 组 


合 ” 成 一 个 字符 ) ， 果 然 解 决 了 问题 。 这 上 段 经 历 再 次 pp Sz 7 , Fil IA 
亚 里 十 多 德 曾 说 : “所 谓 幸 福 ， 就 是 尽 ph 各 Bu) 本 NN le | 




















虽然 我 们 以 为 自己 可 以 解 决 ， 但 是 之 前 学 过 的 技能 已 经 遗 筷 ， 于 是 施展 起 来 步履 沉重 、 举 步 维 艰 ， 最 后 只 
能 精疲力竭 地 等 行 缚 果 ， 目 然 与 辛 福 绝 缘 。 相 反 ， 如 果 我 们 能 把 重要 的 技能 都 真 正 学 会 ， 和 学 到 不 会 态 的 程 
Be, AZAR NRE. WR RAR A On IE MU AeA SUN SA te, AYIA IP SIE 
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Preface 

本 书 关注 的 是 一 种 强大 的 工具 一 一 “正则 表达 式 ”。 它 将 教会 读者 如 何 使 用 正则 表达 式 解决 各 种 问题 ， 
以 及 如 何 充 分 使 用 支持 正则 表达 式 的 工具 和 语言 。 许 多 关于 正则 表达 式 的 文档 都 没有 介绍 这 种 工具 的 能 
力 ， 而 本 书 的 目的 正 是 让 读者 “精通 ”正则 表达 式 。 

许多 种 工具 都 文 持 正 则 表达 式 〈 文 本 编辑 器、 文字 处 理 软件 、 系 统 工具 、 数 据 库 引擎 ， 等 等 ) ， 不 
过 ， 要 想 充 分 挖掘 正则 表达 式 的 能 力 ， 还 是 应 当 将 它 作为 编程 语言 的 一 部 分 。 例 如 Java、JScript、Visual 
Basic. VBScript. JavaScript. ECMAScript. C~, C++, C#H, elisp. Perl, Python, Tcl. Ruby, PHP, sed 
和 awk。 事 实 上 ， 在 一 些 用 上 述 语言 编写 的 程序 中 ， 正 则 表达 式 扮演 了 极其 重要 的 角色 。 

正则 表达 陈 能 够 得 到 众多 语言 和 工具 的 文 持 是 有 原因 的 : 它们 极其 有 用 。 从 较 低 的 层面 上 来 说 ， 正 则 
表达 式 描 述 的 是 一 串 文本 (a chunk of text) 的 特征 。 读 者 可 以 用 它 来 验证 用 户 输 入 的 数据 ， 或 者 也 可 以 用 
它 来 检索 大 量 的 文本 。 从 较 融 的 层面 上 来 说 ， 正 则 表达 式 容 许 用 户 擎 控 他 们 目 己 的 数据 一 一 控制 这 些 数 
据 ， 让 它们 为 目 己 服务 。 测 握 正 则 表达 式 ， 束 古 擎 握 目 己 的 数据 。 

本 书 的 价值 

The Need for This Book 

本 书 的 第 1 AS T19964F, Wi PSN EN OR. ANIA AKT EMAC TER ICM, PRUE 
的 大 部 分 能 力 还 没有 被 友 掘 出 来 。 正 则 表达 式 文档 倒是 存在 ， 但 它们 都 立足 于 “低层 次 视角 ”。 我 认为 ， 那 
种 情况 束 好 像 是 教 一 些 人 瑞 文 字母 ， 然 后 束 指 望 他 们 会 说 话 。 第 2 版 与 第 1 版 间隔 了 五 年 半 的 时 间 ， 这 期 
间 ， 互 联网 迅速 流行 起 来 ， 正 则 表达 式 的 形式 也 有 了 极 大 的 扩张 ， 这 或 许 并 不 是 巧合 。 几 乎 所 有 工具 软件 
和 程序 语言 文 持 的 正则 表达 式 也 变 得 更 加 强大 和 易于 使 用 。Perl、Python、Tcl、Java 和 Visual ”Basic 都 提供 
了 新 的 正则 文 持 。 新 出 现 的 文 持 内 建 正则 表达 陈 的 语言 ， 例 如 PHP、Ruby、C#， 也 已 经 发 展 壮 大 ， 流 行 
开 来 。 在 这 段 时 间 里 ， 本 书 的 核心 一 一 如 何 真 正 理解 正则 表达 式 ， 以 及 如 何 使 用 正则 表达 式 一 一 仍然 保持 
独 它 的 重要 性 和 参考 价值 。 

不 过 ,第 1 版 已 经 逐渐 脱离 了 时 代 ， 必 须 加 以 修订 ， 才 能 适应 新 的 语言 和 特性 ， 也 才能 对 应 正则 表达 
式 在 互联 网 世界 中 越 来 越 重 要 的 地 位 。 第 2 版 出 版 于 2002 年 ， 这 一 年 的 里 程 碑 是 java.util.regex、 
Microsoft.NET Framework 和 Perl 5.8 的 诞生 。 第 2 厂 全 面 履 着 了 这 些 内 容 。 关 于 第 2 版 ， 我 唯一 的 遗憾 束 
是 ， 它 没有 提 及 PHP。 自 第 2 版 诞生 以 来 的 4 年 里 ，PHP 的 重要 性 一 直 在 增加 ， 所 以 ， 弥 补 这 一 缺憾 是 非常 
迫切 的 。 

第 3 版 在 前 面 的 章节 中 增加 了 PHP 的 相关 内 容 ， 并 专门 为 理解 和 应 用 PHP 的 正则 表达 式 增 加 了 一 章 全 
狐 的 内 容 。 男 外 ， 访 版 对 Java 的 章节 也 进行 了 修订 ， 做 了 可 观 的 扩充 ， 有 反映 了 Javal.5 和 Java1.6 的 新 特性 。 

目标 读者 

Intended Audience 

任何 有 机 会 使 用 正则 表达 式 的 人 ， 都 会 对 本 书 感 兴趣 。 如 果 您 还 不 了 解 正则 表达 式 能 提供 的 强大 功 
能 ， 这 本 书展 示 的 全 新 世界 将 会 让 您 受益 菲 浅 。 即 使 您 认为 自己 已 经 是 掌握 正则 表达 式 的 高 手 了 ， 这 本 书 
也 能 够 深化 您 的 认识 。 第 1 版 面世 后 ， 我 时 沼 会 收 到 读者 的 电子 邮件 反映 说 “ 读 这 本 书 之 前 ， 我 以 为 目 己 了 
解 正则 表达 式 ， 但 现在 我 才 真 正 了 解 ”。 

以 与 文本 打交道 为 工作 (如 Web 开 发 的 程序 员 将 会 友 现 ， 这 本 书 绝对 称 得 上 是 座 金 矿 ， 因 为 其 中 强 
着 了 各 种 细节 、 上 暗示 、 讲 解 ， 以 及 能 够 并 刻 投入 到 实用 中 的 知识 。 在 其 他 任何 地 方 都 难以 找到 这 样 丰 富 的 
细节 。 

正则 表达 式 是 一 种 思想 一 一 各 种 工具 以 各 种 方式 (数目 远 远 超过 本 书 的 列举 ) 来 实现 它 。 如 果 读 者 理 
解 了 正则 表达 式 的 基本 思想 ， 竺 握 菏 种 特殊 的 实现 就 是 易 如 肥 向 的 事情 。 本 书 关 注 的 束 古 这 种 思想 ， 所 以 
其 中 的 许多 知识 并 不 党 例子 中 所 用 的 工具 软件 和 语言 的 束缚 。 

如 何 阅读 

How to Read This Book 

这 本 书 既 是 教程 ， 义 是 参考 手册 ， 还 可 以 当 故 事 看 ， 这 取决 于 读者 的 阅读 方式 。 鸡 悉 正 则 表达 式 的 读 
者 可 能 会 觉得 ， 这 本 书 马上 吏 能 当 作 一 本 详细 的 参考 手册 ， 访 者 可 以 直接 跳 到 目 己 需要 的 章节 。 不 过 ， 我 
并 不 或 励 这 样 做 。 

要 想 充分 利用 这 本 书 ， 可 以 把 前 6 Sve: ACR Bin de AE AVE ene ea TSE | 









































整 的 理解 ， 不 过 最 好 还 是 从 这 几 章 的 讲解 中 学 习 它 们 ， 而 不 是 仅仅 记 住 其 中 的 几 张 列表 。 

故事 是 这 样 的 ， 前 6 章 是 后 面 4 章 一 包括 Perl、Java、.NET 和 PHP 的 基础 。 为 了 帮助 读者 理解 每 
一 部 分 ， 我 交叉 使 用 各 章 的 知识 ， 为 了 提供 尽 可 能 方便 的 索引 ， 我 投入 了 大 量 的 精力 《全 书 中 有 超过 1 200 
处 交叉 引用 ， 它 们 以 符号 加 页 码 的 形式 标注 ) 。 

在 谈 完 整个 故事 以 前 ， 最 好 不 要 把 本 书 作为 参考 手册 。 在 开始 疯 读 之 前 ， 旋 者 可 以 参考 其 中 的 表格 ， 
例如 第 92 页 的 图 表 ， 想 象 它 代表 了 需要 掌握 的 相关 人 信息。 但是， 还 有 大 量 背 景 信息 没有 包含 在 图 表 中 ， 而 
是 隐藏 在 故事 里 。 读 者 阅读 完整 个 故事 之 后 ， 会 对 这 些 问 题 有 个 清晰 的 概念 ， 哪 些 能 够 记 起 来 ， 哪 些 需要 
温习 。 














组 织 结构 

Organization 

全 书 共 10 半 ， 可 以 从 逻辑 上 粗略 地 分 为 三 类 ， 下 面 是 电 体 概 哎 : 
导 引 





第 1 章 : 介绍 正则 表达 式 的 基本 概念。 

B2: 考察 利用 正则 表达 式 进 行文 本 处 理 的 过 程 。 

第 3 章 : 提供 对 于 特性 和 工具 软件 的 概述 以 及 简 史 。 

细节 

第 4 章 : Haan J IEW AAS C/E REZ . 

第 5 章 : 利用 第 4 章 的 知识 ， 继 续 学 习 各 种 例子 。 

第 6 章 : 详细 讨论 效率 问题 。 

特定 工具 的 知识 

第 7 章 : 详细 讲解 Perl 的 正则 表达 式 。 

第 8 草 : 讲解 Sun 提 供 的 java.util.regex 包 。 

第 9 章 : 讲解 .NET 的 语言 中 立 的 正则 表达 式 包 。 

第 10 革 : 讲解 PHP 中 皖 供 正则 功能 的 preg 套 件 。 

吐 引 部 分 会 把 完全 的 门外汉 变 成 “对 问题 有 感觉 ”的 狐 手 。 对 正则 表达 式 有 一 定 经 验 的 读者 完全 可 以 快 
速 翻 沿 这 些 章节 ， 不 过 ， 即 使 是 对 于 相当 有 经 验 的 谈 者 来 说 ， 我 仍然 要 特别 推荐 第 3 章 。 

ele ”正则 表达 式 入 门 ， 是 为 完全 的 门外汉 准备 的 。 我 以 应 用 相当 广泛 的 程序 egrep 为 例 来 介绍 正则 
表达 式 ， 我 也 提供 了 我 的 视角 : 如何“ 理解? 正则 表达 式 ， 来 为 后 面 草 下 所 包括 的 高 级 概念 打下 坚实 的 基 
础 。 即 使 是 有 经 验 的 读者 ， 浏 览 本 章 也 会 有 所 收获 。 

e 第 2 章 入门 示例 拓展 ， 考 察 了 文 持 正则 表达 式 的 程序 设计 语言 的 真实 文本 处 理 过程 。 附 加 的 示例 提 
供 了 后 面 章 方 详 细 讨 论 的 基础 ， 也 展示 了 噩 级 正则 表达 式 调 校 背后 的 午 要 思考 过 程 。 为 了 让 读者 学 会 “正则 
— 这 章 出 现 了 一 个 复 林 问题 ， 并 讲解 了 两 种 全 然 不 相关 的 工具 如 何 分 别 明 过 正则 表达 式 来 解 
决 它 。 

e 第 3 草 ”正则 表达 式 的 特性 和 流派 概 喉 ， 提 供 了 当前 经 党 使 用 的 工 其 的 多 种 正则 表达 式 的 概 咏 。 因 为 
历史 的 混乱 ， 当 前 背 用 的 正则 表达 式 的 类 型 可 能 差异 巨大 。 此 章 同 时 介绍 了 正则 表达 式 以 及 使 用 正则 表达 
ee 














细 市 

The Details 

了 解 了 基础 知识 之 后 ， 读 者 需要 弄 明 日 “如 何 使 用 ”及 “这 么 做 的 原因 ”。 束 像 “ 授 人 以 渔 ” 的 典故 一 样 ， 
真正 恒 得 正则 表达 式 的 读者 ， 能 够 在 任何 时 间 、 任 何 地 点 应 用 关于 它 的 知识 。 

e 第 4 草 ”表达 陈 的 匹配 原理 ， 循 序 渐 进 地 导入 本 书 的 核心 。 它 从 实践 的 角度 出 及 ， 考 察 了 正则 引擎 真 
实 工 作 的 午 要 的 内 在 机 制 。 异 得 正则 表达 式 如 何 处 理工 作 细 市 ， 对 读者 掌握 它们 大 有 神 益 。 

e 第 5 章 ” 正 则 表达 式 实用 拉 巧 ， 教 育 谈 者 在 高 层次 和 实际 的 运用 中 应 用 知识 。 这 一 章 会 详细 讲解 币 见 
(但 复杂 〉 的 问题 ， 目 的 在 于 拓展 和 深化 读者 对 于 正则 表达 式 的 认识 。 

e 第 6 章 ”打造 高 效 正 则 表达 式 ， 考 察 真 实生 话 中 大 多 数 程序 设计 语言 提供 的 正则 表达 式 的 高 效 结束 。 
本 章 运 用 第 4 章 和 第 5 章 详细 讲解 的 知识 ， 来 开 肥 引擎 的 能 力 ， 并 避免 其 中 的 缺陷 。 
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Tool-Specific Information 

学 习 完 第 4、5、6 草 的 谈 者 ， 不 太 需 要 知道 特定 的 实现 。 不 过 ， 我 还 是 用 了 4 个 整 章 来 讲解 4 种 流行 的 
语言 。 

e 第 7 章 Perl， 评 细 讲 解 了 Perl 的 正则 表达 式 ，Perl 大 概 是 目前 最 闹 行 的 主要 的 正则 表达 式 编程 语言 。 在 
Perl 中 ， 与 正则 表达 式 相 关 的 操作 符 只 有 四 个 ， 但 它们 组 合 出 的 选项 和 特殊 情形 种 来 了 大 量 的 程序 选项 
同时 还 有 陷阱 。 对 没有 经 验 的 开 肥 人 员 来 说 ， 这 种 极其 丰 遇 的 选项 能 够 让 他 们 迅速 从 概念 转 问 程序 ， 
当然 也 可 能 是 雷 场 。 本 章 的 详细 介绍 有 助 于 给 读者 指出 一 条 光明 大 道 。 

e 第 8 章 Java， 详 细 介 绍 了 java.util.regex 包 ， 从 Java 1.4 以 后 ， 它 已 经 成 为 了 Java 语 言 的 标准 部 分 。 本 章 
主要 关注 的 是 Java 1.5， 但 也 提 及 了 它 与 Java 1.4.2 和 Java 1.6 的 差别 。 

e 第 9 划 .NET， 是 微软 尚未 提供 的 .NET 正 则 表达 式 库 的 文档 。 无 论 使 用 VB.NET、C#、C++、JScript、 
VBScript、ECMAScript 还 是 使 用 .NET 组 件 的 其 他 语言 ， 本 章 都 提供 了 详细 内 容 ， 让 读者 能 够 充分 利用 .NET 
的 正则 表达 式 。 











e 第 10 章 PHP， 简 要 介绍 了 PHP 内 骨 的 多 个 正则 引擎 ， 并 详细 介绍 了 preg 正 则 表达 式 套 件 (regex 
engine) 的 类 型 和 API， 这 些 是 由 PCRE 正 则 表达 式 库 提供 的 。 
体例 说 明 


Typographical Conventions 

在 进行 “或 者 谈论 ) 详细 的 和 复杂 的 文本 处 理 时 ， 保 持 精 确 性 是 很 重要 的 。 关 一 个 空 冬 字符 ， 可 能 寻 
致 蕉 然 不 同 的 结 末 ， 所 以 我 会 在 本 书 中 使 用 下 面 的 惯例 : 

e 正 则 表达 式 以 this| 的 形式 出 现 。 两 端的 符号 表示 “里 面 有 一 个 正则 表达 式 ”， 而 正则 表达 式 文 字 〈 例 
如 用 来 检索 的 表达 式 〉 以 ‘this’ 的 形式 出 现 。 有 时 候 ， 省 略 两 端的 从 号 和 单 引号 也 不 会 造成 收 义 ， 此 时 我 会 
省 略 它 们 。 同 样 ， 屏 大 截图 通常 以 原来 的 样子 出 现 ， 而 不 会 用 到 上 面 两 种 符号 。 

e 在 文字 文本 和 表达 式 内 部 的 省 上 略 号 会 被 特别 标 出 。 例 如 ，[...] 表 示 一 对 方 括号 ， 之 间 的 内 容 无 关 紧 
要 ， 而 [...] 表 示 一 对 方 括号 ， 其 中 包含 三 个 句点。 

e 如 朵 没有 明确 数 子 ， 可 能 很 难 判断 “a b” 之 间 有 多 少 空格 ， 所 以 出 现在 正则 表达 式 和 文学 文本 中 的 空 
格 以 “…” 表 示 。 这 样 “a…b” 就 清楚 多 了 ，。 

e 我 使 用 可 见 的 制 表 从， 换行 行 和 回 和 车子 符 : 





空格 字符 
制 表 符 
加 换行 符 
E 回 车 字符 


e 有 了 时候， 我 会 使 用 下 男 线 或 有 人 色 背 景 蜗 党 标注 文字 文本 或 正则 表达 式 的 一 部 分 。 下 和 面 这 人 句 话 中 ， 下 
团 线 的 部 分 表示 表达 陈真 正 匹 配 的 部 分 : 


It*indicates*yourcat*is. 











Because | cat | Matches ‘instead of the word'cat',we realize... 


xSP, PAB op resp 1 SAA TUES DEFT 
To make this useful,we can wrap | Subject|Date | with parentheses,and append a colon and a space. This yields 


' (Subject |Date) :*) 
LJ a 


e 本 书包 含 了 大 量 的 细节 和 例子 ， 所 以 我 设置 了 超过 1 200 处 的 交叉 引用 ， 帮 助 读者 理解 。 它 们 通常 表 
示 为 “人 S123”， 意 思 是 “请 参阅 第 123 页 ”。 举 个 例子 :“... 的 说 明 在 表 8-2 中 (367) ”。 

练习 

Exercises 

AR HA, FR sae RE CER, JOS A EJ Le HE Se. ENS EE 
设 ， 我 希望 读者 在 继续 阅读 之 前 认真 想 想 。 请 记 住 我 的 话 ， 不 要 忽略 它们 的 重要 意义 ， 本 书 中 这 样 的 问题 
并 不 多 。 它们 可 以 当 作 自我 测试 题 : 如 果 不 是 几 句 话 就 能 说 明白 的 问题 ， 最 好 是 在 复习 相关 章节 之 后 再 继 
EIDE o 1000 tinuxd O www.linuxidc.com 0O [0 





为 了 避免 谈 者 二 接 看 到 问题 的 答案 ， 我 使 用 了 一 点 技巧 : 问题 的 答 采 部 必须 翻 页 才能 看 到 。 通 党 你 必 
须 翻 过 一 页 才能 看 到 标 着 @ 的 答案 。 这 样 答案 在 你 思考 问题 的 时 候 没 法 直接 看 到 ， 但 又 很 容易 获得 。 

链接 、 代 人 码 、 勘 误 及 联系 方式 

Links,Code,Errata,and Contacts 

写 第 1 有 版 时 ， 我 友 现 修改 书本 上 的 URL， 你 持 与 实际 一 人 怪 古 件 很 费 工 夫 的 事情 ， 所 以 ， 我 没有 在 书后 
罗列 一 个 URL 附 录 ， 而 是 提供 统一 的 地 址 : 

http://regex.info 

在 这 里 你 可 以 找到 与 正则 表达 式 相 天 的 链接 ， 书 中 的 所 有 代码 ， 可 检索 的 索引 以 及 其 他 资源 。 本 书 也 
可 能 存在 错误 @， 所 以 我 提供 了 勘误 。 

如 果 你 找到 书 中 的 错误 ， 或 者 仅仅 是 希望 给 我 写 几 人 句 话 ， 请 写 邮 件 到 : jfriedl@regex.info。 

我 们 已 尽力 核验 本 书 所 提供 的 信息 ， 尺 官 如 此 ， 仍 不 能 你 证 本 书 完全 没有 瑕 辛 ， 而 网 络 世 界 的 变化 之 
快 ， 也 使 得 本 书 永 不 过 时 的 你 证 成 为 不 可 能 。 如 果 读 者 友 现 本 书 内 容 上 的 错误 ， 不 官 是 资 字 、 错 字 、 语 总 
不 清 ， 甚 至 是 技术 钳 误 ， 我 们 者 调 庆 虚心 接受 读者 指教 。 如 果 您 有 任何 问题， 请 按照 以 的 联系 方式 与 我 
门 联系 。 

PATHE CER) ABZ a] 

北京 市 海淀 区 知春 路 49 号 希 格 玛 公寓 B 座 809 室 

邮政 编 合 : 100080 

网 页 : http: //www.oreilly.com.cn 

E-mail:info@mail.oreilly.com.cn 

与 本 书 有 关 的 在 线 信息 如 下 所 示 。 

http: /www.oreilly.comycatalog/regex3/〈 原 书 ) 

http: //www.oreilly.com.cn/book.php? bn=978-7-121-04684-1 (中文 版 ) 
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第 1 草 正则 表达 去 入 门 


Introduction to Regular Expressions 

想象 一 下 这 幅 图 景 : 你 需要 检索 东台 Web 服 务 器 上 的 页 面 中 的 重复 单词 〈 例 如 “this this’) ， 进 行 大 规 
柑 文 本 编辑 时 ， 这 是 一 项 常见 的 任务 。 程 序 必 须 满足 下 面 的 要 求 : 

e 能 检 答 多 个 文件 ， 挑 出 包 售 重 复 单 词 的 行 ， 高 完 标 记 每 个 重复 单词 〈 使 用 标准 ANSI 的 转 义 字符 序列 
Cescape sequence) ) ， 同 时 必须 显示 这 行文 字 来 目 哪 个 文件 。 

e 能 跨行 租 找 ， 即 使 两 个 单词 一 个 在 茶 行 末尾 而 另 一 个 在 下 一 行 的 开 状 ， 也 算 重 复 单 词 。 

e 能 进行 不 区 分 大 小 写 的 查找 ， 例 如 "The ”the...*， 重 复 单词 之 间 可 以 出 现任 意 数 量 的 空白 字符 (空格 
人 条、 制 表 符 、 换 行人 之 类 ) (译注 1) 。 

e 能 但 找 用 HTML tag 分 隔 的 重复 单词 。HTML tag 用 于 标记 互联 网 页 上 的 文本 ， 例 如 ， 粗 体 单 词 是 这 样 
表示 的 : ‘...itis <B>very</B> very important...’ 

这 些 问 题 并 不 容易 解决 ， 但 又 不 能 不 解决 。 我 在 写作 本 书 的 手稿 时 ， 曾 用 一 个 工具 来 检 栓 已 经 与 好 的 
部 分 ， 我 惊奇 地 发 现 ， 其 中 葛 有 那么 多 的 重复 单词 。 能 够 解决 这 种 问题 的 编程 语言 有 许多 ， 但 是 用 文 持 正 
则 表达 式 的 语言 来 处 理会 相当 人 简单 。 

正则 表达 式 (Regular Expression) 是 强大 、 便 捷 、 融 效 的 文本 处 理工 具 。 正 则 表达 式 本 里 ， 加 上 如 同 
一 门 袖珍 编程 语言 的 通用 模式 表示 法 (general pattern notation) ， 赋 予 使 用 者 描述 和 分 析 文 本 的 能 力 。 配 合 
上 特定 工具 提供 的 辕 外 文 持 ， 正 则 表达 式 能 够 添加 、 删 除 、 分 离 、 琶 加 、 插 入 和 修整 各 种 类 型 的 文本 和 数 
据 。 

正则 表达 式 的 使 用 难度 只 相当 于 文本 编辑 右 的 搜索 命令， 但 功能 却 与 完整 的 文本 处 理 语言 一 样 强大 。 
本 书 将 同 读 者 展示 正则 表达 式 提 高 生产 率 的 诸多 办 法 。 它 会 教导 读者 如 何 学 会 用 正则 表达 式 来 思考 (think 
regular expressions) ， 以 便于 和 营 握 它们 ， 驳 分 利用 它们 的 强大 功能 。 

如 采 使 用 当今 流行 的 程序 设计 语言 ， 解 决 重复 单词 问题 的 完整 程序 可 能 仅仅 只 需要 几 行 代码 。 使 用 一 
个 正则 表达 式 的 搜索 和 符 换 命令 ， 访 者 就 可 以 得 找 文档 中 的 重复 单词 ， 并 把 它们 标记 为 高 完 。 加 上 另 一 
个 ， 你 可 以 删除 所 有 不 包含 重复 单词 的 行 〈 只 留 下 需要 在 结束 中 出 现 的 行 ) 。 最 后 ， 利 用 第 三 个 正则 表达 
式 ， 你 可 以 确保 结 采 中 的 所 有 行 都 以 它 所 在 文件 的 名 字 开 头 。 在 下 一 草 里 ， 我 们 会 看 到 用 Perl 和 Java 编 写 的 
REF s 

特 主 语言 《例如 Perl、Java 以 及 VB.NET) 提供 了 外 围 的 处 理 文 持 ， 但 是 真正 的 能 力 来 目 正 则 表达 式 。 
为 了 要 驭 这 种 语言 ， 满 足 上 自己 的 需求 ， 恋 者 必须 知道 如 何 构建 正则 表达 式 ， 才 能 识别 符合 要 求 的 文本 ， 同 
时 忽略 不 需要 的 文本 。 然 后 ， 束 可 以 把 表达 式 和 语言 文 持 的 构建 方式 结合 起 来 ， 真 正 处 理 这 些 文本 《加 入 
合适 的 高 党 标记 代码 ， 删 除 文 本 ， 修 改 文本 ， 等 等 )。 
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解决 实际 问题 


Solving Real Problems 

掌握 正则 表达 陈 ， 可 能 惠 来 超 乎 你 之 前 想象 的 文本 处 理 能 力 。 每 一 天 ， 我 都 依靠 正则 表达 陈 解 决 各 种 
大 大 小 小 的 问题 ( 通 妆 的 情况 是 ， 问 题 本 映 并 不 复 林 ， 但 没有 正则 表达 式 束 成 了 大 问题 〉。 

要 说 明正 则 表达 式 的 价值 ， 可 以 举 一 个 用 正则 表达 式 解 决 大 而 重要 的 问题 的 例子 ， 但 是 它 不 一 定 能 代 
表 正 则 表达 式 在 平时 解决 的 那些 “不 值 一 提 ”(uninteresting〉 的 问题 。 这 里 的 “不 值 一 提 ” 是 指 这 类 问题 并 不 
能 成 为 谈资 ， 可 是 不 解决 它们 ， 你 就 没 法 继续 干 活 。 

举 个 简单 的 例子 ， 我 需要 检 奏 许多 文件 〈 事 实 上 ， 本 书 的 手稿 存放 在 70 个 文件 中 ) ， 确 保 每 一 行 
中 ‘SetSize’ 出现 的 次 数 与 ‘ResetSize’ 有 的 一 样 多 。 为 了 应 付 复 林 的 情况 ， 我 还 需要 考虑 大 小 写 的 情况 〈 淮 例 来 
说 ，'setSIZE’ 也 算 做 ‘SetSize’〉 。 人 工 检查 32 000 行文 字 显 然 不 现实 。 

即便 使 用 文本 编辑 占有 的 “单词 查找 ”功能 ， 也 不 够 方便 ， 尤 其 是 对 所 有 文件 进行 同样 的 操作 ， 何 况 还 需 
要 考虑 所 有 可 能 的 大 小 写 情况 。 

正则 表达 式 就 是 解决 这 个 问题 的 灵丹妙药 。 只 雷 要 一 个 人 简单 的 命令 ， 我 就 能 够 检查 所 有 的 文件 ， 获 得 
我 需要 知道 的 结果 。 时 间 是 : 写 命 令 大 概 15 秒 ， 检 索 所 有 的 数据 实际 只 花 了 2 秒 。 这 上 真是 棒 极 了 RA 
知道 这 是 怎么 做 到 的 ， 不 芒 现在 束 翻 到 第 36 页 ) ! 

再 举 一 个 例子 ， 我 曾 帮 助 一 个 朋友 处 理 远 问 机 髓 上 的 某 些 E-mail， 他 希望 我 把 他 邮箱 文件 中 的 消 恩 作 
为 列表 发 送 给 他 。 我 可 以 把 整个 文件 导入 文本 编辑 磺 ， 手 工 删 除 所 有 信息 ， 只 留 下 邮件 头 中 的 几 行 ， 作 为 
内 容 的 列表 。 尽 党 文件 不 是 很 大 ， 连 接 速度 也 不 算 慢 ， 这 样 的 任务 还 是 很 耗费 时 间 而 且 很 乏味 。 而 且 ， 堪 
SUTRAS HBR IE SC, EERIE . 

正则 表达 式 再 一 次 提供 了 帮助 ! 我 用 一 个 简单 的 命令 〈 使 用 本 章 稍 后 提 到 的 一 个 音 用 工具 egrep) 显示 
每 封 邮件 的 From: Subject: 字段 。 为 了 告诉 egrep 我 需要 提取 哪些 行 ， 我 使 用 了 正则 表达 式 
人 (From|Sbuject) : E 


朋友 得 到 这 个 列表 之 后 ， 让 我 找 一 封 特殊 的 5 000 行 ! ) 邮件。 使 用 文本 编辑 器 或 者 邮件 系统 来 提取 
一 封 邮件 无 疑 非常 耗 时 。 相 反 ， 我 借助 男 一 个 工具 (叫做 ”sed) ， 同 样 使 用 正则 表达 式 来 描述 文件 中 我 需 
要 的 内 容 。 这 样 ， 我 能 迅速 而 方便 地 提取 和 发 送 需要 的 邮件 。 

使 用 正则 表达 式 节省 下 来 的 时 间或 许 并 不 能 让 人 < 激动”， 但 总 比 把 时 间 消 耗 在 文本 编辑 器 中 要 好 。 如 
果 我 不 知道 有 正则 表达 式 这 种 玩意 儿 ， 根 本 就 不 会 想到 还 有 别 的 解决 办 法 。 所 以 ， 这 个 故事 告诉 我 们 ， 正 
则 表达 式 和 相关 的 工具 能 够 让 我 们 以 可 能 未 曾 想 过 的 方式 来 解决 问题 。 

一 旦 掌握 了 正则 表达 式 ， 你 就 会 知道 到 它 简 直 是 工具 中 的 无 价 之 宝 ， 你 也 难以 想象 之 前 那些 没有 正则 
表达 式 的 日 子 是 怎么 度 过 的 〈 注 1) 。 

全 面 掌握 正则 表达 式 是 很 有 用 的 。 本 书 提供 了 掌握 这 种 技能 所 需要 的 信息 ， 我 同时 也 希望 ， 这 本 书 也 
提供 了 促使 你 学 习 的 动机 。 
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作为 编程 语言 的 正则 表达 式 


Regular Expressions as a Language 

如 果 没 有 正则 表达 式 相 关 经 验 ， 读 者 可 能 无 法 理解 上 个 例子 中 正则 表达 式 I 和 (From|Subject〉: | 的 意 
义 ， 但 是 这 个 表达 却 并 没有 什么 神奇 之 处 。 其 实 硒 术 本 喘 也 不 神奇 ， 只 是 缺乏 训练 的 普通 观众 不 明日 魔术 
师 尝 握 的 那些 拉 巧 而 已 。 如 本 你 也 懂 得 如 何在 手中 藏 一 张 牌 ， 那 么 ， 玖 练 之 后 ， 你 也 可 以 “ 变 魔术 ”。 外 语 
也 是 这 样 一 一 一 旦 掌握 了 一 门 外 语 ， 你 束 不 会 觉得 它 像 天 书 了 。 


以 文件 名 做 类 比 





The Filename Analogy 

选择 这 本 书 的 谈 者 ， 大 和 概 对 “正则 表达 式 ” 多 少 有 点 认识 。 即 便 没 有 ， 也 应 该 熟悉 其 中 的 基本 概念 。 

我 们 都 知道 ，report.txt 是 一 个 文件 名 但是， 如 果 你 用 过 Unix 或 者 DOS/Windows 的 话 ， 束 会 知 
KE .txt” 能 够 用 来 选择 多 个 文件 。 在 此 类 文件 名 称 为 “文件 群 组 ”file globs 或 者 “ 通 配 从 ”wildcards)〉 中， 
有 些 字 人 符 具 有 特殊 的 意义 。 星 号 表示 “任意 文本 ”， 问 号 表示 “任意 单个 字符 "”。 所 以 ， 文 件 群 组 “ x txt” LRE 
够 匹配 字符 的 类 | 符号 开头 ， 以 普通 文字 [et 结尾 ， 所 以 ， 它 的 意思 是 : 选择 以 任意 文本 开头 ， 以 .txt 
结尾 的 所 有 文件 。 

大 多 数 系 统 都 提供 了 少量 的 附加 特殊 字符 (additional special characters) ， 但 是 ， 总 的 来 说 ， 这 些 文 件 
ZAPIN (filename patterns) 的 表达 能 力 还 很 有 限 。 不 过 ， 因 为 这 类 问题 的 领域 很 锋 罕 只 涉及 文件 名 ， 
所 以 这 算 不 上 缺陷 。 

不 过 ， 处 理 普通 的 文本 就 没有 这 么 简单 了 。 散 文 、 诗 、 程 序 代码 、 报 表 、HTML、 表 格 、 单 词 表 ..……… 
到 你 想 得 出 的 任何 文本 。 如 果 霖 种 特殊 的 需求 足够 专业 ， 例 如 “选择 文件 ”， 我 们 可 以 有 发 明 一 些 特殊 的 办 法 
和 工具 来 解雇 问题 。 不 过 ， 近 年 来 ， 一 种 “通用 的 模式 语言 ”(generalized pattern language) 已 经 发 展 起 
来 ， 它 功能 强大 ， 摘 述 能 力也 很 剖 ， 可 以 用 来 解决 各 种 问题 。 不 同 的 程序 以 不 同 的 方式 来 实现 和 使 用 这 种 
语言 ， 但 是 综合 来 说 ， 这 种 功能 强大 的 模式 语言 和 模式 本 里 侯 称 为 “正则 表达 式 ” (regular expression) 。 


以 语言 做 类 比 




















The Language Analogy 

完整 的 正则 表达 式 由 两 种 字符 构成 。 特 殊 字 符 (special _ characters， 例 如 文件 名 例子 中 的 大 ) 称 为 “元 
FIF” (metacharacters) ， 其 他 为 “文字 ”(jiteral) ， 或 者 是 普通 文本 字符 (normal text characters) 。 正 则 
表达 式 与 文件 名 模式 (filename ”pattermn〉 的 区 别 束 在 于 ， 正 则 表达 式 的 元 字符 提供 了 更 强大 的 摘 述 能 
文件 名 模式 只 为 有 限 的 需求 提供 了 有 限 的 元 字符 ， 但 是 正则 表达 式 “ 语 言 2 为 高 级 应 用 提供 了 丰 曙 而 且 摘 述 
力 极 强 的 元 字符 。 

为 了 便于 理解 ， 我 们 可 以 把 正则 表达 式 想 象 为 普通 的 语言 ， 普 通 字 符 对 应 普通 语言 中 的 单词 ， 而 元 字 
从 对 应 语法 。 根 据 语言 的 规则 ， 按 照 语法 把 单词 组 合 起 来 ， 束 会 得 到 能 传达 思想 的 文本 。 在 E-mail 的 例子 

[A : 。 
中 ， 我 用 正则 表达 式 UU “Mw sc H 来 寻找 以 From: ;或 者 ‘Subject :开头 的 行 。 下 夯 线 标注 
的 融 是 特殊 字符 ， 稍 后 我 们 将 解释 它们 的 含义 。 

瓯 像 学 习 任 何 一 门 外 语 一 样 ， 第 一 眼看 上 去 ， 正 则 表达 式 很 不 好 理解 。 这 也 是 那些 对 它 只 有 粗浅 了 解 
或 者 根本 不 了 解 的 人 觉得 正则 表达 式 很 神奇 的 原因 。 但 是 ， 就 像 学 日 语 的 人 很 快 束 能 理解 正规 表现 导 简 简 
Zk) ( 注 2) 一 样 ， 读 者 很 快 也 能 够 彻 拘 明 白 下 面 这 个 正则 表达 式 的 含义: 

s!<emphasis > ([0-9]+(\.[0-9]+){3})</emphasis > !<inet >$1</inet>! 

这 个 例子 取 目 一 个 Perl WA, RAH ERKA A. FREA Ee HE A) <emphasis > 1x 
个 tag 来 标注 IP 地 址 (类 似 209.204.146.22 这 样 由 数字 和 点 号 构成 的 字符 串 〉。 其 中 的 奥妙 就 在 于 使 用 Perl 的 
MAS RATS, TEA: 

| <emphasis > ([0-9]+(\.[0-9]+){3})</emphasis> | 
把 IP 地 址 两 端的 tag 符 换 为 和 inet 盖 ， 而 不 改动 其 他 的 和 emphasis 之 标签 。 在 后 面 的 章节 中 ， 访 者 会 了 解 


这 个 表达 式 的 构造 细 节 ， 然 后 就 能 按照 目 己 的 mK FHH HAERE AWW Tied eidic- eor no 














本 书 的 目的 

你 或 许 不 需要 重复 把 所 emphasis 之 普 换 为 <inet 之 的 工作 ， 人 不 过 很 可 能 需要 解决 "把 这 些 文字 莹 换 为 那 
本 书 的 目的 不 是 提供 具体 问题 的 解决 办 法 ， 而 是 教会 读者 利用 正则 表达 式 来 思考 ， 解 决 
好 到 由 问题 。 
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正则 表达 云 的 四 维和 框架 


The Regular-Expression Frame of Mind 

我 们 将 会 看 到 ， 完 整 的 正则 表达 式 由 小 的 构建 模块 单元 (building block unit) 组 成 。 每 个 单独 的 构建 
模块 都 很 简单 ， 不 过 因为 它们 能 够 以 无 穷 多 种 方式 组 合 ， 将 它们 结合 起 来 实现 特殊 目标 必须 依靠 经 验 。 所 
以 ， 本 章 提 供 了 有 关 正 则 表达 却 的 奋 干 概念 的 总 体 摘 述 。 这 一 章 并 没有 艰深 的 内 容 ， 而 是 为 本 书 其 余 重 节 
的 知识 打下 基础 ， 在 深入 探索 正则 表达 式 之 前 ， 把 相关 事宜 阐释 清楚 。 

菜 些 例子 看 起 来 可 能 有 点 无 聊 〈 因 为 它们 确实 无 聊 〉， 但 它们 代表 了 一 类 需要 完成 的 任务 ， 只 是 读者 
二 
章 的 目的 。 


对 于 有 部 分 经 验 的 读者 


If You Have Some Regular-Expression Experience 

如 果 读者 已 经 熟悉 正则 表达 式 ， 这 些 综述 便 没 有 太 大 价值 ， 但 务必 不 要 忽略 它们 。 你 或 许 明白 某 些 元 
字符 的 基本 意义 ， 但 某 些 思维 和 看 竺 正则 表达 式 的 方式 可 能 是 你 不 了 解 的 。 

MBR EERBAAR ARAE S EREA R E BE PAE VU RIA SUSE AD xe e 
事 。 示 些 内 容 可 能 会 重复 读者 已 经 了 解 的 知识 ， 但 方式 可 能 与 之 前 的 不 同 ， 而 且 这 些 方式 正 是 其 正 理 解 正 
则 表达 式 的 第 一 步 。 





检索 文本 文件 : Egrep 


Searching Text Files:Egrep 

文本 检索 是 正则 表达 式 最 简单 的 应 用 之 一 一 一 许多 文本 编辑 融和 文字 处 理 软件 部 提供 了 正则 表达 式 检 
索 的 功能 。 最 人 刹 蛙 的 束 古 egrep。 在 指定 了 正则 表达 式 和 需要 检索 的 文件 之 后 ，egrep 会 昱 试用 正则 表达 式 来 
匹配 每 个 文件 的 每 一 行 ， 并 最 示 能 够 匹配 的 行 。 

许多 系统 一 例如 DOS、MacOS、Windows、Unix 等 等 一 都 对 应 有 免费 提供 的 egrep。 在 本 书 的 网 页 
http: //regex.info 上 可 以 找到 获得 对 应 读者 操作 系统 的 egrep 找 贝 的 链接 。 

回 到 第 3 页 的 E-mail 的 例子 ， 真 正 用 来 从 E-mail 文件 中 提取 结果 的 命令 如 图 1-1 所 示 。egrep 把 第 一 个 命令 
行 参数 视 为 一 个 正则 表达 式 ， 剩 下 的 参数 作为 竺 搜 检索 的 文件 名 。 注 意 ， 图 1-1 中 的 单 引号 并 不 是 正则 表达 
式 的 一 部 分 ， 而 是 根据 command shel ZNA CES) 。 使 用 egrep 时 ， 我 通常 用 蛙 引 号 来 包围 正则 表达 
式 。 如 果 要 在 支持 对 正则 表达 式 提 供 了 完整 支持 的 程序 设计 语言 中 使 用 正则 表达 式 一 一 这 是 下 一 间 开 类 的 
内 容 ， 和 重要 的 问题 是 知道 特殊 字符 有 哪些 ， 上 其 体 文本 是 什么 ， 针 对 什么 对 象 〈( 什 么 表达 式 ， 什 么 工具 软 
F) ， 以 及 按 何 种 顺 友 解释 这 些 字 符 。 





















shell 中 的 引号 
shell 


提示 和 提交 给 egrep 的 正则 表达 式 


Ht 
% egrep ‘“4(From|Subject): “ mailbox-file 


ss 


第 一 个 命令 行 参数 


图 1-1: 通过 命令 行 调 用 egrep 
我 们 号 上 就 能 明日 ， 这 个 正则 表达 式 的 各 个 部 分 都 是 什么 意思 ， 但 已 经 知道 菜 些 字符 具有 特殊 合 义 有 的 
读者 或 许 能 够 猜 出 大 概 了 。 在 这 里 ， I^, 和 |, 都 是 正则 表达 式 的 元 字符 ， 它 们 与 其 他 字符 结合 起 来 ， 实 
现 我 们 期 望 的 功能 。 0 O O O Linux] |] www.linuxide.com [] L] 


如 来 一 个 正则 表达 式 不 包括 任何 egrep 文 持 的 元 字 从 ， 它 束 成 了 一 个 人 简单 的 “ 纯 文本 ”检索 。 例 如 ， 在 一 


个 文件 中 检索 Tcat, ， 会 显示 任何 包含 canl 3 个 连续 字母 的 行 。 例 如 ， 它 包括 所 有 出 现 了 2c35*on 的 
行 。 

即便 这 行文 本 中 不 包 舍 单 词 cat，vacation 中 包 侣 的 cat 序列 仍然 符合 匹配 条 件 。 如 果 某 行 中 包含 
vacation, egrep 允 会 把 它 显 示 出 来 。 关 键 葡 在于， 此 处 进行 的 正则 表达 却 搜 索 不 是 基于 “单词 ?的 egrep 
能 够 理解 文件 中 的 字 节 和 行 ， 但 它 完 全 不 理解 瑞 语 〈 或 者 其 他 任何 语言 ) Wi. A. BOR, MAE 
他 复杂 概念 。 
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Egrep 元 字符 


Egrep Metacharacters 

现在 我 们 来 看 egrep 中 文 持 正则 表达 去 功能 的 元 字符 。 我 会 用 几 个 例子 来 简要 介绍 它们 ， 把 详细 的 例子 
AFIS BA BI Jes TED YT o 

印刷 体例 在 开始 之 前 ， 请 务必 回顾 前 言 第 V 页 上 解释 的 体例 说 明 。 本 书 使 用 了 一 些 新 的 文字 形式 ， 所 
以 东 些 体例 读者 初次 接触 可 能 并 不 熟悉 。 


行 的 起 始 和 结束 


Start and End of the Line 

或 许 最 容易 理解 的 元 字符 就 是 脱 字符 号 '^| 和 美元 符号 $| 了 ， 在 检查 一 行文 本 时 ，1^| 代表 一 行 的 
开始 ，1$| 代表 结束 。 我 们 曾经 看 到 ， 正 则 表达 式 cat) 寻找 的 是 一 行文 本 中 任意 位 置 的 ca-t， 但 是 
Acat| 只 寻找 行 首 的 cat A 用 来 把 匹配 文本 (这 个 表达 式 的 其 他 部 分 匹配 的 字符 )“ 销 
E” (anchor) 在 这 一 行 的 开头 。 同 样 ， cat$| 只 寻找 位 于 行 末 的 ca-t， 例 如 以 scat 结 尾 的 行 。 

读者 最 好 能 养 成 按照 字符 来 理解 正则 表达 式 的 习惯 。 例 如 ， 不 要 这 样 : 

Acat| 匹配 以 cat 开 头 的 行 

而 应 该 这 样 理解 : 

Acat| 匹配 的 是 以 c 作 为 一 行 的 第 一 个 字符 ， 双 接 一 个 a， 紧 接 一 个 t 的 文本 。 

这 两 种 理解 的 结果 并 无 差 寞 ， 但 控 照 字符 来 解读 更 易于 明日 新 过 到 的 正则 表达 式 的 内 部 人 远 辑 。egrep 会 
如 何 解释 Acat$ | 、 ‘A$ 和 单个 的 ‘A 呢 ? wie] FRAGA. 

PAE SPR TES ERE ZTE, EDO BCE EP, TM NEA CAS. YK, AIRS 
方式 可 以 匹配 具体 文本 。 在 正则 表达 式 中 ， 除 了 使 用 cat| 之 类 的 普通 字符 ， 还 可 以 使 用 下 面 几 节 介绍 的 


一 y Ay 


JUTT 











字符 组 


Character Classes 

匹配 看 干 字符 之 一 

如 条 我 们 需要 搜索 的 是 单词 "*grey”， 同 时 又 不 确定 它 是 人 否 写 作 *gray”， 台 可 以 使 用 正则 表达 陈 结 构 体 
(construct ) len >o ERA EA el HH ESE Ah ESA SE, A ANRE ETH (character class (1% 
注 2) ) . le; 匹配 字符 se， al 匹配 字符 a， 而 正则 表达 式 [ea] 能 匹配 a 或 者 e。 所 以 ， grfealy| 的 意思 
je: 先 找 到 g， 跟 着 是 一 个 r， 然 后 是 一 个 a 或 者 e， 最 后 是 一 个 y。 我 很 不 擅长 拼写 ， 所 以 总 是 用 正则 表达 式 
从 一 大 堆 英 文 单 词 中 找到 正确 的 拼写 。 我 经 常 使 用 的 一 个 正则 表达 式 是 sep[eajr[eajte| ， 因 为 我 从 来 都 记 
不 住 这 个 单词 到 底 是 写作 “seperate”，“separate”，“separete”， 还 是 别 的 什么 样子 。 匹 配 的 结果 的 就 是 正确 的 
拼 法 ， 而 正则 表达 式 束 是 我 的 领路 人 。 

请 注意 ， 在 字符 组 以 外 ， 普 通 字 符 (例如 1grfae]y| 中 的 g| 和 Ti ) 都 有 “ 接 下 来 是 Cand then) ”的 
意思 一 “首先 匹配 1g| ， 接 下 来 是 [7 .…..”。 这 与 字符 组 内 部 的 情况 是 完全 相反 的 。 字 符 组 的 内 容 是 在 
同一 个 位 置 能 够 下 配 的 大 干 池 从， 所 以 它 的 意思 是 “或 ”。 

来 看 另 一 个 例子 ， 我 们 还 必须 考虑 单词 的 第 一 个 字母 为 大 写 的 情况 ， 例 如 1[Ssjmith, 。 请 记 住 ， 这 个 
表达 式 仍 然 能 够 匹配 内 藤 在 其 他 单词 里 头 的 smith (或 者 是 Smith)， 例 如 blacksmith。 在 综述 阶段 ， 我 不 打 
算 为 这 种 情况 费 太 多 笔墨， 但 是 这 确实 是 某 些 新 手 过 到 的 问题 的 根源 。 等 了 解 了 更 多 的 元 字符 以 后 ， 我 会 
介绍 一 些 办 法 来 解决 单词 咎 套 的 问题 。 在 一 个 字符 组 中 可 以 列举 任意 多 个 字符 。 例 如 [123456]; 匹配 1 到 6 
中 的 任意 一 个 数字 。 这 个 字符 组 可 以 作为 1<H[123456]>> | 的 一 部 分 ， 用 来 匹配 <H1>>、<H2>>、<H3 
> 等 等 。 在 搜索 HTML 代 码 的 头 文 件 时 这 非常 有 用 。 

在 字符 组 内 部 ， 字 符 组 元 字符 (character-class| |metachakdctki ty x| (ER RWWA Oi: conhat | 
































6]> | 与 '<H[123456]> | 是 完全 一 样 的 。 [0-9]| 和 [a-z] 是 常用 的 匹配 数字 和 小 写字 母 的 简便 方式 。 多 
重 范围 也 是 容许 的 ， 例 如 1[0123456789abcdefABCDEF]| 可 以 写作 [[0-9a-fA-F]) 或 者 也 可 以 写作 '[A- 
Fa-f0-9] | ， 顺 序 无 所 谓 )。 这 3 个 正则 表达 式 非常 适用 于 处 理 十 六 进 制 数 字 。 我 们 还 可 以 随心 所 欲 地 把 字 
符 范 围 与 普通 文本 结合 起 来 : [[0-9A-Z_! .? ] PEKUE- DAA KSF FER WS A, 
或 者 是 问号 。 

请 注意 ， 只 有 在 字符 组 内 部 ， 连 字符 才 是 元 字符 一 一 任 则 它 束 只 能 匹配 普通 的 连 字符 写 。 其 实 ， 即 使 
在 字符 组 内 部 ， 它 也 不 一 定 束 是 元 字符 。 如 末 连 字符 出 现在 字符 组 的 开头 ， 它 表示 的 融 只 是 一 个 普通 字 
从 ， 而 不 是 一 个 范围 。 同 样 的 着 理 ， 问 号 和 点 写 通常 被 当 作 元 字符 处 理 ， 但 在 字符 组 中 则 不 是 如 此 说明 
白 一 点 就 是 ，“ [0-9A-Z_! .? ] 里 面 ， 真 正 的 特殊 字符 就 只 有 那 两 个 连 字 符 ) 。 


Syd aats "SM '*, 


o 第 8 页 问题 的 答案 
‘cats; ”文字 意义 匹配 的 条 件 是 ， 行 开头 (显然 ， 每 一 行 都 有 开头 )， 然 后 是 字母 
cat, REAR, 
: 只 包含 cat 的 行 一 一 没有 多 余 的 单词 、 空 白字 符 …… 只 有 “cat ”。 
: 匹配 的 条 件 是 ， 行 开头 ， 然 后 就 是 行 末尾 。 
: 空 行 〈 没 有 任何 字 待 ， 包 括 空 白字 待 )。 
: 匹配 条 件 是 行 的 开头 。 
: REX! 因为 每 一 行 都 有 开头 ， 所 以 每 一 行者 能 匹配 
不 例外 。 








不 妨 把 字符 组 看 作 独 立 的 微型 语言 。 在 字符 组 内 部 和 外 部 ， 关 于 元 字符 的 规定 〈 哪 

些 是 元 字符 ， 以 及 它们 的 意义 ) 是 不 同 的 。 

我 们 很 快 束 会 看 到 更 多 的 例子 。 

排除 型 字符 组 

用 “[^...]| 取代 “[...]| ， 这 个 字符 组 就 会 匹配 任何 未 列 出 的 字符 。 例 如 ，“ [Al1-6]| 匹配 除了 1 到 6 以 外 
的 任何 字符 。 这 个 字符 组 中 开头 的 '^| 表示 “排除 Cnegate) ”， 所 以 这 里 列 出 的 不 是 希望 匹配 的 字符 ， 而 是 
不 硕 望 史 配 的 字符 。 

读者 可 能 注意 到 了 ， 这 里 的 和 ^ 和 第 8 页 的 表示 行 首 的 脱 字 符 古 一 样 的 。 字 人 符 确 实 相 同 ， 但 意义 截然 不 
同 。 瑞 语 里 的 “wind”， 根 据 情 境 的 不 同 ， 可 能 表示 一 阵 强 烈 的 气流 〈( 风 〉 ， 也 可 能 表示 给 钟表 上 友和 条 ; 元 
字符 也 是 如 些 。 我 们 已 经 看 过 用 来 表示 沁 围 的 连 字 和 从 的 例子 。 只 有 在 字符 组 内 部 《而 且 不 是 第 一 个 字符 的 
情况 下 ) ， 连 字符 才能 表示 沁 围 。 在 字符 组 外 部 ，^ 表 示 一 个 行销 点 line anchor) ， 但 是 在 字符 组 内 部 
(而 且 必 须 是 紧 接 在 字符 组 的 第 一 个 方 插 号 之 后 )， 它 就 是 一 个 元 字 伯 。 请 不 要 担心 这 就 是 最 复 森 的 
情况 ， 接 下 来 的 内 容 比 这 简单。 

来 看 另 一 个 例子 ， 我 们 需要 在 一 堆 刺 文 单 词 中 搜索 出 一 些 特殊 的 单词 : 在 这 些 单词 中 ， 字 母 qdq 后 面 的 
字母 不 是 u。 用 正则 表达 式 来 表示 ， 就 是 'q[^u]， 。 用 这 个 正则 表达 式 来 搜索 我 手头 的 数据 ， 确 实 得 到 了 一 
些 结 果 ， 但 显然 不 多 ， 其 中 还 有 些 是 我 没 见 过 的 瑞 文 单词 。 

下 面 是 结果 (我 输入 的 命令 用 粗 体 表示 ): 








[| 日 Linux[| [|] www.linuxidc.com |] [] 


6 egrep 'q[*u]' word.list 
Iragi 

Iragian 

miqra 

qasida 

gintar 

goph 

zaqqum% 


其 中 有 两 个 单词 值得 注意 : 伊拉克 “Iraq” 和 澳大利亚 航空 公司 的 名 字 “Qantas”。 尽 管 它们 都 在 word.list 
文件 中 ， 但 都 不 包含 在 egrep 结 果 中 。 为 什么 呢 ? 请 动 动脑 筋 ， 然 后 翻 到 下 一 页 来 检查 你 的 答案 。 

请 记 住 ， 排 除 型 字符 组 表示 “匹配 一 个 未 列 出 的 字符 (match a character that's not listed) ”， 而 不 是 “不 
EDL ACH) LaF (don't match what is listed) >”。 这 两 种 说 法 看 起 来 一 样 ， 但 是 Iraq 的 例子 说 明了 其 中 的 细 
徽 甜 异 。 有 一 种 简单 的 理解 排除 型 字符 组 的 办 法 ， 台 是 把 它们 看 作 普 通 的 字符 组 ， 里 面包 含 的 是 除 了 “排除 
型 字符 组 中 所 有 字符 ”以 外 的 字符 。 





用 点 号 匹配 任意 字符 


Matching Any Character with Dot 

元 字符 1.， (通常 称 为 点 号 dot 或 者 小 点 point〉 是 用 来 匹配 任意 字符 的 字符 组 的 简便 写法 。 如 果 我 们 需 
要 在 表达 式 中 使 用 一 个 “匹配 任何 字符 ”的 占 位 符 (placeholder) ， 用 点 号 束 很 方便 。 例如， 如 果 我 们 需要 
搜索 03/19/76、03-19-76 或 者 03.19.76， 不 怕 麻 烦 的 话 用 一 个 明确 容许 e “和 的 字符 组 来 构建 正则 表达 
sk, flan 03[-./]19[-./]76| 。 也 可 以 简单 地 尝试 “03.19.76 | 。 

读者 第 一 次 接触 这 个 表达 式 时 ， 可 能 还 不 清楚 某 些 情况 。 在 “03[-./]19[-./]76| 中 ， 点 号 并 不 是 元 字 
符 ， 因 为 它们 在 字符 组 内 部 〈 记 住 ， 在 字符 组 里 面 和 外 面 ， 元 字符 的 定义 和 意义 是 不 一 样 的 ) 。 这 里 的 连 
字符 同样 也 不 是 元 字符 ， 因 为 它们 都 紧 接 在 [或 者 [^ 之 后 。 如 果 连 字符 不 在 字符 组 的 开头 ， 例 如 1[.-/]| ， 就 
是 用 来 表示 范围 的 ， 在 本 例 中 束 是 错误 的 用 法 。 





[| 日 日 Linux[| || www.linuxidc.com [] [] 


测验 答案 


o 第 11 页 问题 的 答案 
为 什么 q[^u] ,无 法 匹配 “Qantas” 或 者 “Iraq ”? 

Qantas 无 法 匹配 的 原因 是 , 正则 表达 式 要 求 小 写 q, 而 Qantas 中 的 QO 是 大 写 的 。 如 果 
我 们 改 用 0[^u] ， 就 能 匹配 Qantas, 但 是 其 他 单词 又 不 在 结果 中 了 ， 因 为 它们 不 包括 
K Q, [Qq] [^u] 则 能 找到 上 面 所 有 的 单词 。 

Irag 的 例子 有 点 迷惑 人 ,正则 表达 式 要 求 q 之 后 紧 跟 一 个 u 以 外 的 字符 , 这 就 排除 了 
q 处 在 行 尾 的 情况 。 通 常 来 说 ， 文 本 行 的 结尾 都 有 一 个 换行 字符 ， 但 是 我 首先 没有 提 
到 (非常 抱歉 ) egrep 会 在 检查 正则 表达 式 之 前 把 这 些 换 行 符 去 挤 ， 所 以 在 行 尾 的 q 之 
后 ， 没 有 能 够 匹配 au 以 外 的 字符 。 

AREA MASE. ( 注 4)。 我 向 你 保证 ， 如 果 egrep 保留 换行 符 (许多 其 他 软件 会 
保留 这 些 符 号 ) ， 或 者 Irag 后 紧 接 着 空格 或 者 其 他 单词 ， 这 一 行 就 能 匹配 。 理 解 工 具 
软件 的 细节 固然 很 重要 ， 但 现在 我 只 布 望 读者 能 通过 这 个 例子 认识 到 : 一 个 字符 组 ， 
即使 是 排除 型 字符 组 ， 也 需要 匹配 一 个 字符 。 





在 “03.19.76| 中 ， 点 号 是 元 字符 一 一 它 能 够 匹配 任意 字符 〈 包 括 我 们 期 望 的 连 字 符 、 句 号 和 和 斜 线 ) 。 
不 过 ， 我 们 也 需要 明白 ， 点 号 可 以 匹配 任何 字符 ， 所 以 这 个 正则 表达 式 也 能 够 匹配 下 面 的 字符 串 : lottery 
19 203319 7639’ 








numbers: 

所 以 ， 03[-./]19[-./]76| 更 加 精确 ， 但 是 更 难 读 ， 也 更 难 写 。 03.19.76| 更 容易 理解 ， 但 是 不 够 细 
致 。 我 们 应 该 选择 哪 一 个 呢 ? 这 取决 于 你 对 需要 检索 的 文本 的 了 解 ， 以 及 你 需要 达到 的 准确 程度 。 一 个 重 
要 但 常见 的 问题 是 ， 写 正则 表达 式 时 ， 我 们 需要 在 对 欲 检 索 文 本 的 了 解 程度 与 检索 精确 性 之 间 求 得 平衡 。 
例如 ， 如 果 我 们 知道 ， 针 对 某 个 检索 文本 ， [03.19.76 这 个 正则 表达 式 基 本 不 可 能 匹配 不 期 望 的 结果 ， 使 
用 它 就 是 合理 的 。 要 想 正确 使 用 正则 表达 式 ， 清 楚 地 了 解 目 标 文本 是 非常 重要 的 。 


多 选 结构 





Alternation 

DU WUE FRIAS 

[| 是 一 个 非常 简捷 的 元 字符， 它 的 意思 是 “或 ”(or) 。 依 徘 它 ， 我 们 能 够 把 不 同 的 子 表 达 式 组 合成 
一 个 总 的 表达 式 ， 而 这 个 总 的 表达 式 又 能 够 匹配 任意 的 子 表达 式 。 假 如 Bob) 和 [Robert] 是 两 个 表达 
st, {H 'Bob|Robert) 就 是 能 够 同时 匹配 其 中 任意 一 个 的 正则 表达 式 。 在 这 样 的 组 合 中 ， 子 表达 式 称 为 “多 
选 分 文 〈alternative ) ”。 

回头 来 看 'gr[fea]y | 的 例子 ， 有 意思 的 是 ， 它 还 可 以 写作 greylgray| ， 或 者 是 1gr (ale) y) 。 后 者 用 
括号 来 划 定 多 选 结构 的 范围 (正常 情况 下 ， 插 号 也 是 元 字符 ) 。 请 注意 ， “gr[alely| 不 符合 我 们 的 要 求 
一 一 在 这 里 ， 中 只 是 一 个 和 “a| 与 el 一 样 的 普通 字符 。 

对 表达 式 gr Cale) y 来 说 ， 括 号 是 必须 的 ， 因 为 如 果 没 有 括号 ， graley| 的 意思 就 成 了 “1gra| 或 者 
ey| ”， 而 这 不 符合 我 们 的 要 求 。 Fitak AURE OA a inuia COhAT | I 











| (First|1st) ‘[Ss]treet; GE 5). BE, AW | First 和 ‘1st 都 以 st 结尾 ， 我 们 可 以 把 这 个 结合 体 缩 
略 表 示 为 ” (Firl1) st-[Ss]treet) 。 这 样 可 能 不 容易 看 得 清楚 ， 但 我 们 知道 ”Firstllst) | 与 ” (firl1) st) 表 
示 的 是 同一 个 意思 。 


下 和 面 是 一 些 用 多 选 结构 来 拼写 我 名 字 的 例子 。 这 3 个 表达 式 是 一 样 的 ， 请 仔细 比较 : 


Jeffrey|Jeffery 
‘Jeff (reylery)) 
‘Jeff (reler) y! 
英国 拼写 法 如 下 : 
| (Geoff|Jeff) (reylery) 
| (Geo | Je) ff (reylery) 
| (Geo | Je) ff (reler) y] 
最 后 要 注意 的 是 ， 这 3 个 表达 式 其 实 与 下 和 面 这 个 更 长 (但 古 更 人 简单) 的 表达 式 古 等 价 的 : 
| Jeffrey|Geoffery|Jeffery|Geoffrey, 。 它 们 只 是 “殊途同归 ”而 已 。 
[grfea]y | 与 gr (ale) y) 的 例子 可 能 会 让 人 觉得 多 选 结构 与 字符 组 没 太 大 的 区 别 ， 但 是 请 留神 不 要 
混 消 这 两 个 概念 。 一 个 字符 组 只 能 匹配 目标 文本 中 的 单个 字符 ， 而 每 个 多 选 结 构 上 自身 都 可 能 是 完整 的 正则 
表达 式 ， 都 可 以 匹配 任意 长 度 的 文本 。 
字符 组 基本 可 以 算是 一 门 独 立 的 微型 语言 〈 例 如 ， 对 于 元 字符 ， 它 们 有 目 己 的 规定 ) ， 而 多 选 结构 
是 “正则 表达 式 语言 主体 (main regular expression language) ”的 一 部 分 。 你 将 会 发 现 ， 这 两 者 都 非常 有 用 。 
同样 ， 在 一 个 包含 多 选 结构 的 表达 式 中 使 用 脱 字 符 和 美元 符 的 时 候 也 要 小 心 。 比 较 
[\From|Subject|Date: :| #11 '\ (From|Subject|Date) : .| 就 会 发 现 ， 虽 然 它 们 看 起 来 与 之 前 的 E-mail 的 例子 
很 相似 ， 匹 配 结果 《〈 即 它们 的 用 处 ) 却 大 不 相同 。 第 一 个 表达 陈 由 3 个 多 选 分 文 构 成 ， 所 以 它 能 匹配 
AFrom | 或 者 Subject| 或 者 Date: .| ， 实 用 性 不 大 。 我 们 希望 在 每 一 个 多 选 分 支 之 前 都 有 脱 字符 ， 之 后 
都 有 : :| 。 所 以 应 该 使 用 括号 来 “限制 ”(constrain ) 这 些 多 选 分 支 : 
| \(From|Subject|Date):: | 
现在 3 个 多 选 分 文 都 受 括号 的 限制 ， 所 以 ， 这 个 正则 表达 式 的 意思 是 : 匹配 一 行 的 起 始 位 置 ， 然 后 匹 
配 AFrom| 、 Subject| 或 Date| 中 的 任意 一 个 ， 然 后 匹配 “: :| ， 所 以 ， 它 能 够 匹配 的 文本 是 : 
1) 行 起 始 ， 然 后 是 From， 然 后 是 ": ?, 
或 者 2) 行 起 始 ， 然 后 是 Sub:j'e:c't， 然 后 是 2:: …， 
或 者 3) 行 起 始 ， 然 后 是 Da'te， 然 后 是 “: …。 
简单 点 说 ， 束 是 匹配 以 From: -’, ‘Subject: “或 者 ‘Date: … 开 头 的 文本 行 ， 在 提取 E-mail 文 件 中 的 信 
轧 时 这 很 有 用 。 
下 面 是 一 个 例子 : 
S$ egrep '%*(From|Subject|Date): ' mailbox 
From: elvis@tabloid.org (The King) 
Subject: be seein' ya around 
Date: Mon, 23 Oct: 2006 L1li0421s 
From: The Prez <president@whitehouse.gov> 
Date: Wed, 25 Oct 2006 8:36:24 
Subject: now, about your vote... 














忽略 大 小 与 


Ignoring Differences in Capitalization 


E-mail header 的 例子 很 适合 用 来 说 明 不 区 分 大 从 = fpi [的 RA y Erei drene 


的 字段 类 型 (field type) 通 第 是 以 大 写字 母 开 头 的 ， 例 如 “Subject> 和 “From”， 但 是 E-mail 标 准 并 没有 对 大 小 
所 以 “DATE” 或 者 “from” 也 是 合法 的 字段 类 型 。 但 是 ， 之 前 使 用 的 正则 表达 式 无 法 处 理 
XAP TES UL o 

一 种 办 法 是 用 [FfI[Rr[Ool[Mm]| 取代 From, ， 这 样 就 能 匹配 任何 形式 的 “from”， 但 缺点 之 一 就 是 很 
不 方便 。 羊 好 ， 我 们 有 一 种 办 法 告诉 egrep 在 比较 时 忽略 大 小 号 ， 也 融 是 进行 不 区 分 大 小 号 的 匹配 ， 这 样 残 
He WR KD SPREE FF o 

该 功能 并 不 是 正则 表达 式 语 言 的 一 部 分 ， 却 是 许多 工具 软件 提供 的 有 用 的 相关 特性 。egrep 的 命令 行 参 
数 “-i” 表 示 进 行 忽略 大 小 写 的 匹配 。 把 -i 写 在 正则 表达 式 之 前 : 

%egrep-i'\(From|Subject|Date):'mailbox 

结果 除了 包括 之 前 的 内 容 外 ， 还 包含 这 一 行 : 

SUBJECT:MAKE MONEY FAST 

我 使 用 -i 参数 的 频率 很 蜗 〈 也 许 与 第 12 页 的 注解 有 关 ) ， 所 以 我 推荐 读者 记 住 它 。 在 下 和 面 的 章节 中 我 
们 还 会 见 到 其 他 的 简捷 特性 。 





单词 分 界 和 从 


Word Boundaries 

使 用 正则 表达 式 时 经 常会 过 到 的 一 个 问题 ， 期 望 罗 配 的 “单词 ”包含 在 为 一 个 蛙 词 之 中 。 在 cat、gray 和 
Smith 的 例子 中 ， 我 曾 提 到 过 这 个 问题 。 不 过 ， 茶 些 厂 本 的 egrep 对 单词 识别 提供 了 有 限 的 文 持 : tHE 
词 分 界 符 〈 单 词 开头 和 结束 的 位 置 ) 的 匹配 。 

如 果 你 的 egrep 文 持 “ 元 字符 序列 Cmetasequences) ” A<] 和 > , LA DE EIS Ce ta] Op FE 
的 位 置 。 可 以 把 它们 想象 为 单词 版 本 的 '^ A'S) ， 分 别 用 来 匹配 单词 的 开头 和 结束 位 置 。 就 像 作为 行 锚 
点 的 脐 字 人 符 和 美元 人 符 一 样 ， 它 们 锁定 了 正则 表达 却 的 其 他 部 分 ， 但 在 匹配 过 程 中 并 不 对 应 到 任何 字符 。 表 
达 式 \<cat> | 的 意思 是 “匹配 单词 的 开头 位 置 ， 然 后 是 ca-t 这 3 个 字母 ， 然 后 是 单词 的 结束 位 置 "。 更 直接 
点 说 就 是 “匹配 cat 这 个 单词 "。 如 果 读 者 愿意 ， 也 可 以 用 之 catj 和 'cat\> | 来 匹配 以 cat 开 头 和 结束 的 单 
ile 

WA, < 和 > | 本 身 并 不 是 元 字符 只 有 当 它 们 与 斜 线 结合 起 来 的 时 候 ， 整 个 序列 才 上 共有 特 
殊 意 义 。 这 就 是 我 称 其 为 “元 字符 序列 ”的 原因 。 重 要 的 是 它们 的 特殊 意义 ， 而 不 是 字符 的 个 数 ， 所 以 我 说 
的 “元 字符 ”和 “元 《字符 〉 序列 "大 多 数 时 候 是 等 价 的 。 

请 记 住 ， 并 不 是 所 有 版 本 的 ”egrep 都 文 持 单词 分 界 侍 ， 即 使 是 文 持 的 版 本 也 不 见得 聪明 到 能 “认得 
出 ?英语 单词 。 “单词 的 起 始 位 置 ?只 不 过 是 一 系列 字母 和 数字 符号 (alphanumeric characters) 开始 的 位 置 ， 
而 “结束 位 置 ? 残 是 它们 结尾 的 地 方 。 下 一 页 的 图 1-2 说 明了 一 行 简单 文本 中 的 单词 分 界 人 符 。 

(egrep 认定 的 ) 单词 开头 位 置 用 同上 的 葡 头 标识 ， 单 词 结束 位 置 用 同 下 的 箭头 标识 。 我 们 看 到 , “ 单 
词 的 开始 和 结束 ”准确 地 说 是 “字母 数字 符号 的 开始 和 结束 ”， 不 过 这 样 说 太 麻 烦 了 。 


| | ee ee ee 


= = / * ri i | | 
pe fs pen #@ 1% pa A pas = asia 95 ! 





























′ \< 能 够 匹配 的 位 置 | \> 能 够 匹配 的 位 置 





图 1.2: “单词 "的 起 始 和 结束 位 置 


小 结 





In a Nutshell [| U O [| Linux] [] www.linuxide.com [] [] 


表 1-1 总 结 了 我 们 已 经 介绍 过 的 元 字符 。 
表 1-1: 至 今 为 止 所 见 的 元 字符 小 结 


元 字符 DERE 
单个 任意 字符 
字符 组 列 出 的 任意 字符 





名 
点 号 





Wh 排除 型 字符 组 未 列 出 的 任意 字符 
i 脱 字符 行 的 起 始 位 置 
$ 美元 符 行 的 结束 位 置 


\< | BAB F 单词 的 起 始 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 
反 斜 线 -大 于 单词 的 结束 位 置 ( 某 些 版 本 的 eerep 可 能 不 支持 ) 
| 匹配 分 隔 两 边 的 任意 一 个 表达 式 

限制 坚 线 的 作用 范围 ， 其 他 功能 下 文 讨论 
另外 还 有 几 点 需要 注意 ; 

。 在 字符 组 内 部 ， 元 字符 的 定义 规则 (及 它们 的 意义 是 不 一 样 的 。 例 如 ， 在 字符 组 外 部 ， 点 号 是 元 


字符 ， 但 是 在 内 部 则 不 是 如 此 。 相 反 ， 连 字符 只 有 在 字符 组 内 部 〔 这 是 普遍 情况 ) 才 是 元 字符 ， 否 则 就 不 
， 脱 字符 在 字符 组 外 部 表示 一 个 意思 ， 在 字符 组 内 部 紧 接着 [时 表示 另 一 个 意思 ， 其 他 情况 下 又 表示 别 的 


JC) 








Ik A 小 
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e 不 要 混淆 多 选项 和 字符 组 。 字 符 组 '[abc]| 和 多 选项 abo | 固然 表示 同一 个 意思 ， 但 是 这 个 例子 
中 的 相似 性 并 不 能 推广 开 来 。 无 论 列 出 的 字符 有 多 少 ， 字 人 符 组 只 能 匹配 一 个 字符 。 相 反 ， 多 选项 可 以 匹配 
任意 长 度 的 文本 ， 每 个 多 选项 可 能 匹配 的 文本 都 是 独立 的 ， 例 如 A< (1, 000, 
000|million|thousand:thou) \>, 。 不 过 ， 多 选项 没有 像 字 符 组 那样 的 排除 功能 。 

e 排 除 型 字符 组 是 表示 所 有 未 列 出 字符 的 字符 组 的 简便 方法 。 因 此 ，1[^x]| 的 意思 并 不 是 “只 有 当 这 个 
位 置 不 是 x 时 才能 匹配 ”， 而 是 说 “匹配 一 个 不 等 于 x 的 字符 ”"。 其 中 的 差别 很 细微 ， 但 很 重要 。 例 如 ， 前 面 的 
概念 可 以 匹配 一 个 空 行 ， 而 “[^x]| 则 不 行 。 
@ 
-i 参数 规定 在 匹配 时 不 区 分 大 小 写 (全 15) GE) 。 
e 目 前 介绍 过 的 知识 都 很 有 用 ， 但 “可 选项 〈optional) ”和 “计数 (counting) ”元 素 更 重要 ， 下 文 将 马上 


介绍 。 








可 选项 元 系 


Optional Items 

现在 来 看 color 和 colour 的 匹配 。 它 们 的 区 别 在 于 ， 后 面 的 单词 比 前 面 的 多 一 个 u， 我 们 可 以 用 colou? 
r| 来 解决 这 个 问题 。 元 字符 '? | (也 就 是 问号 ) 代表 可 选项 。 把 它 加 在 一 个 字符 的 后 面 ， 就 表示 此 处 容 
许 出 现 这 个 字符 ， 不 过 和 它 的 出 现 并 非 匹 配 成 功 的 必要 条 件 。 

Pu? | 这 个 元 字符 与 我 们 之 前 看 到 的 元 字符 都 不 相同 ， 它 只 作用 于 之 前 么 邻 的 元 妹 。 因 此 ， [colou? 
r| 的 意思 是 : rc ， 然 后 是 ro ， 然 后 是 [1 ， 然 后 是 ro ， 然 后 是 ur), Baer. 

fu? | 是 必然 能 够 匹配 成 功 的 ， 有 时 它 会 匹配 一 个 u， 其 他 时 候 则 不 匹配 任何 字符 。 关 键 在 于 ， 无 论 
是 否 出 现 ， 匹 配 都 是 成 功 的 。 但 这 并 不 等 于 ， 任 何 包含 ? 的 正则 表达 式 都 永远 能 匹配 成 功 。 例 如 ，!coloj 


All us? | 都 能 在 ‘semicolom? 中 匹配 成 功 UE idc cerh AH 














r EEM, Att, me lcolou? r| ÆI ftsemicolon. 

来 看 另 一 个 例子 ， 我 们 需要 匹配 表示 7 月 4 日 uly fourth) 的 文本 ， 其 中 月 份 可 能 写作 July 或 是 JI， 而 
日 期 可 能 写作 fourth, 4th 或 者 是 4。 显 然 ， 我 们 可 以 使 用 (JulylJul) -+ Cfourthj4th|4) | ， 但 也 可 以 找 些 
其 他 的 办 法 来 解决 这 个 问题 。 

首先 ， RIJE. Guyu | 缩短 为 ” (July? ) | 。 你 明白 这 种 等 价 变换 吗 ? 删除 || 之 后 ， 就 没 必要 
保留 括号 了 。 当 然 保 留 也 可 以 ， 但 不 保留 括号 显得 更 整洁 一 些 。 于 是 我 们 得 到 |July? (fourthl4thl4) | 。 

现在 来 看 第 二 部 分 ， 我 们 可 以 把 4thl4| 简化 为 4 Ch) ? | 。 我 们 看 到 ， 现 在 ? | 作用 的 元 素 是 整 
个 括号 了 。 括 号 内 的 表达 式 可 以 任意 复杂 ， 但 是 “从 括号 外 来 看 ”它们 是 个 整体 。 界 定 "? | 的 作用 对 象 〈 还 
可 以 划 定 我 即将 介绍 的 其 他 类 似 元 字符 的 作用 对 象 ) 是 括号 的 主要 用 途 之 一 。 

我 们 的 表达 式 现 在 成 了 ‘July? - (fourthl4 (th) ? ) | 。 尽 管 它 包 含 了 许多 元 字符 ， 而 且 有 翌 套 的 括 
写 ， 但 理解 起 来 并 不 困难 。 我 们 花 了 相当 的 工夫 来 讲解 这 两 个 简单 的 例子 ， 但 同时 也 接触 到 了 一 些 相 关 的 
知识 ， 它 们 相当 有 助 于 一 一 或 许 你 现在 还 意识 不 到 一 一 我 们 理解 正则 表达 式 。 同 样 ， 通 过 这 些 讲解 ， 我 们 
也 积累 了 依靠 不 同 思路 解决 问题 的 经 验 。 在 阅读 本 书 〈 同 时 也 是 在 加 深 理解 ) 寻找 复杂 问题 的 最 优 解决 方 
案 的 过 程 中 ， 你 可 能 会 发 现 灵 感 可 能 在 不 断 涌 现 。 正 则 表达 式 不 是 死板 的 教条 ， 它 更 像 是 门 艺 术 。 


其 他 量词 : 重复 出 现 











Other Quantifiers:Repetition 

f+, (加 号 ) 和 大 | (BE) 的 作用 与 问号 类 似 。 元 字符 +| 表示 “之 前 紧邻 的 元 素 出 现 一 次 或 多 
次 ”， 而 类 | 表示 “之 前 紧邻 的 元 素 出 现任 意 多 次 ， 或 者 不 出 现 ”。 换 种 说 法 就 是 ，“... 类 | 表示 “匹配 尽 可 
能 多 的 次 数 ， 如 果实 在 无 法 匹配 ， 也 不 要 紧 "。 |...+| 的 意思 与 之 类 似 ， 也 是 匹配 尽 可 能 多 的 次 数 ， 但 如 
末 连 一 次 匹配 都 无 法 守成， 区 报告 失败 。 问 号 、 加 号 和 星 号 这 3 个 元 字符 ， 统 称 为 量词 (quantifiers) ， 
为 它们 限定 了 所 作用 元 系 的 匹配 次 数 。 

与 ...? | 一样， 正则 表达 式 中 的 ... 类 | 也 是 永远 不 会 匹配 失败 的 ， 区 别 只 在 于 它们 的 匹配 结果 。 而 
...+| 在 无 法 进行 任何 一 次 匹配 时 ， 会 报告 匹配 失败 。 

举例 来 说 ，1.? | 能 够 匹配 一 个 可 能 出 现 的 空格 ， 但 是 .x | 能 够 匹配 任意 多 个 空格 。 我 们 可 以 用 这 
些 量 词 来 简化 第 9 页 <H[1-6]> 的 例子 。 按 照 HTML 规 范 〈 注 7) ， 在 tag 结 尾 的 > 字符 之 前 ， 可 以 出 现任 意 
长 度 的 空格 ， 例 如 雪 H3:> 或 者 <H4…>。 把 :类 | 加 入 正则 表达 式 中 的 可 能 出 现 《〈 但 不 是 必须 ) 空格 的 
(A, WSS) HI[1-6].x | 。 它 仍然 能 够 匹配 和 H1> ， 因 为 空格 并 不 是 必须 出 现 的 ， 但 其 他 形式 的 tag 也 能 
JU AC 

I BORA EU <HR:SIZE=14> 3K FF ANHTML tag， 它 表示 一 条 高 度 为 14 像 素 的 穿越 屏幕 的 水 平 线 。 与 
<H3> 的 例子 一 样 ， 在 最 后 的 尖 括 号 之 前 可 以 出 现任 意 多 个 空格 。 此 外 ， 在 等 扎 两 边 也 容许 出 现任 意 多 个 
空格 。 最 后 ， 在 “HR 和 ” SIZE 之 间 必 须 有 至 少 一 个 空格 。 为 了 人 处理 更 多 的 空格 ， 我 们 可 以 在 1.| 后 添加 
类 | ， 不 过 最 好 还 是 改写 为 .+| 。 加 号 确保 至 少 有 一 个 空格 出 现 ， 所 以 它 与 …* | 是 完全 等 价 的 ， 只 不 过 
更 简洁 。 所 以 我 们 得 到 <HR.+SIZE: 类 =: 类 14: 类 之 | 。 

尽管 这 个 表达 式 不 受 空 格 数目 的 限制 ， 但 它 仍然 受 tag 中 直线 尺寸 大 小 的 约束 。 我 们 要 找 的 不 仅仅 是 高 
上 度 为 14 的 tag， 而 是 所 有 这 些 tag。 上 所以， 我 们 必须 用 能 匹配 普通 数值 (general number) 的 表达 式 来 蔡 换 
14| 。 在 这 里 , “数值 ”Cnumber) 是 由 一 位 或 多 位 数字 (digit) 构成 的 。 [0-9]| 可 以 匹配 一 个 数字 ， 
为 “至 少 出 现 一 次 ”， 所 以 我 们 使 用 加 号 量词 ， 结 果 就 是 用 [0-9]+| 替换 14| 。 一 个 字符 组 是 一 个 “元 
R” mit) ， 所 以 它 可 以 直接 加 加 号 、 星 号 等 ， 而 不 需要 用 括号 。) 

这 样 我 们 就 得 到 了 “<HR.+SIZE. 大 =: 关 [0-9]+: 大 之 | ， 尽 管 我 用 了 粗 体 标识 元 字符 ， 用 空格 来 分 隔 各 
个 元 素 ， 而 且 使 用 了 “看 得 见 的 空格 符 ”%”， 这 个 表达 式 仍然 不 容易 看 履 (幸好 ，egrep 提 供 了 -i 的 参数 号 
15， 这 样 我 就 不 需要 用 [Hh][Rr]| 来 表示 HR| 了 ) o BM, |<HR+SIZE*=*[0-9]+* >) 更 令 人 迷 
惑 。 这 个 表达 式 之 所 以 看 起 来 有 些 诡异 ， 是 因为 星 号 和 加 号 作用 的 对 象 大 都 是 空格 ， 而 人 眼 习 惯 于 把 空格 
和 普通 字符 区 分 开 来 。 在 阅 旋 正 则 表 过 式 时 ， 我 们 岂 须 a DY Mn r Ee oa 
与 j 或 者 4 这 样 的 字符 没有 任何 差别 《在 后 面 的 章 Hini e TT p AI ny 























式 ) 。 

我 们 继续 这 个 例子 ， 如 果 尺 寸 这 个 属性 也 是 可 选 的 ， 也 就 是 说 <HR> 就 代表 默认 高 度 的 直线 CIE, 
在 > 之 前 也 可 能 出 现 空格 ) 。 你 能 修改 我 们 的 正则 表达 式 ， 让 它 匹配 这 两 种 类 型 的 tag 吗 ? 解决 问题 的 关 
键 在 于 明白 表示 尺寸 的 文本 是 可 选 出 现 的 《这 是 个 暗示 ) 。m 请 翻 到 下 一 页 查看 答案 。 

请 仔细 观察 最 后 〈 答 案 中 ) 的 表达 式 ， 体 会 问号 、 星 号 和 加 号 之 间 的 差异 ， 以 及 它们 在 实际 应 用 中 的 
真正 作用 。 下 一 页 的 表 1-2 总 结 了 它们 的 意义 。 

请 注意 ， 每 个 量词 都 规定 了 匹配 成 功 至 少 需要 的 次 数 下 限 ， 以 及 尝试 匹配 的 次 数 上 限 。 对 某 些 量词 来 
说 ， 下 限 是 0， 对 某 些 量词 来 说 ， 上 限 是 无 穷 大 。 





把 一 个 子 表 达 式 变 为 可 选项 
19 页 问题 的 答案 
在 本 例 中 ,“ 可 选 出 现 ”(optional) 的 意思 是 可 以 但 并 不 必须 匹配 一 次 。 这 需要 使 用 ? |。 
因为 可 选项 多 于 一 个 字符 ， 所 以 我 们 必须 使 用 括号 : (…)? I。 把 它 插 入 表达 式 中 ， 就 


得 到 <HR (*+SIZE**="* [0-9] E aes 

请 注意 , A A (…)?1 以 外 。 这 样 就 能 应 付 <HR> ZAMAN, 如果 我 们 把 它 
包含 在 括号 内 ， 则 只 有 在 出 现 “SIZE=…” 这 段 文本 的 情况 下 才 容 许 在 > 之 前 出 现 空 格 。 
同样 请 注意 SIZE 之 前 的 “+ 包含 在 括号 内 。 如 果 把 它 拿 到 括号 之 外 , HR 之 后 就 必须 紧 
跟 至 少 一 个 空格 ， 即 使 SIZE 没有 出 现 也 是 如 此 。 这 样 “<HR> ”就 无 法 匹配 了 ， 








表 1-2: “表示 重复 的 元 字符 ” 舍 义 小 结 


次 数 上 限 含义 
2 可 以 不 出 现 ， 也 可 以 只 出 现 一 次 ( 单 次 可 选 ) 
x 可 以 出 现 无 数 次 ， 也 可 以 不 出 现 (任意 次 数 均 可 ) 
t+ |1 | 天 | 可 以 出 现 无 数 次 但 至 少 要 出 现 一 次 (至少 一 次 ) 


规定 重 现 次 数 的 范围 : XT 
某 些 版 本 的 egrep 能 够 使 用 元 字符 序列 来 自 定 义 重 现 次 数 的 区 间 : “.….{min， max}) 。 这 称 为 “区 间 量 词 
(interval quantifier) ”. 例如，'...{3， 12} | 能 够 容许 的 重 现 次 数 在 3 到 12 之 间 。 有 人 可 能 会 用 [azA-Z] 
{1, 5}) 来 匹配 美国 的 股票 代码 (1 到 5 个 字母 ，》。 问 号 对 应 的 区 则 量词 是 {0，1}。 
文 持 区 间 表 示 法 的 egrep 的 版 本 并 不 多 ， 但 有 许多 男 外 的 工具 文 持 它 。 在 第 3 章 我 们 会 仔细 考察 目 前 经 
第 使 用 的 元 字符 ， 那 时 候 会 涉及 区 间 的 文 持 问题 。 
插 写 及 反问 引用 


Parentheses and Backreferences 

到 目前 为 止 ， 我 们 已 经 见 过 插 写 的 两 种 用 途 : 限制 多 选项 的 范围 ， 将 硅 干 字符 组 合 为 一 个 单元 ， 受 问 
号 或 星 号 之 类 量词 的 作用 。 现 在 我 要 介绍 括号 的 另 一 种 用 途 ， 虽 然 它 在 egrep 中 并 不 常见 〈 不 过 流行 的 GNU 
版 本 确实 文 持 这 一 功能 ) ， 但 在 其 他 工具 软件 中 很 常见 。 

在 许多 流派 (flavor〉 的 正则 表达 式 中 ， 插 号 能 够 “ 记 住 ”它们 包含 的 子 表达 式 匹 配 的 文本 。 在 解决 本 章 
开始 提 到 的 单词 重复 问题 时 就 会 用 到 这 个 功能 。 如 果 我 们 确切 知道 重复 单词 的 第 一 个 单词 (比方 说 这 个 单 


词 就 是 “the") ， 就 能 够 明确 无 误 地 找到 它 ， 例 如 hi tinua rw HR Se Come 口 





况 ， 但 如 果 我 们 的 egrep 支 持 在 第 15 页 提 到 的 单词 分 界 符 \<the'the\>| ， 这 个 问题 就 很 容易 解决 。 我 们 可 
以 添加 + 把 这 个 表达 式 变 得 更 灵活 。 

然而 ， 穷 举 所 有 可 能 出 现 的 重复 单词 显然 是 不 可 能 完成 的 任务 。 如 采 我 们 移 匹 配 任意 一 个 单词 ， 接 下 
来 检查 “后 面 的 单词 是 个 与 它 一 样 ?， 就 好 办 多 了 。 如 果 你 的 egrep 文 持 “ 反 加 引用 (backreference) ”就 可 
以 这 么 做 。 反 同 引 用 是 正则 表达 陈 的 特性 之 一 ， 它 容许 我 们 匹配 与 表达 式 先 前 部 分 匹配 的 同样 的 文本 。 

我 们 先 把 "\<the-+the\> | 中 的 第 一 个 the, 蔡 换 为 能 够 匹配 任意 单词 的 正则 表达 式 「I[A-Za-z]+| ; 然 
后 在 两 端 加 上 括号 〈 原 因 见 下 段 ) ， 最 后 把 后 一 个 the" 蔡 换 为 特殊 的 元 字符 序列  \1| ， 就 得 到 了 N< 
({A-Za-z]+) -+\l\>) o 

在 文 持 反 同 引用 的 工具 软件 中 ， 括 亏 能 够 “记忆 ?其 中 的 子 表达 了 式 匹 配 的 文本 ， 不 论 这 些 文本 是 什么 ， 
元 字符 序列 AL, 都 能 记 住 它 们 。 

当然 ， 在 一 个 表达 式 中 我 们 可 以 使 用 多 个 括号 。 再 用 \1| 、 (12). | 等 来 表示 第 一 、 第 二 、 第 三 
组 括 写 匹配 的 文本 。 括 与 是 按照 开 括 与 ‘(从 左 至 右 的 出 现 顺 序 进行 的 ， 所 以 (a-z]〉([0-9]) \1\2| 中 
的 \1 代表 [a-z]; 匹配 的 内 容 ， 而 \2| 代表 '[0-9]| 匹配 的 内 容 。 

在 ‘the-the’ 的 例子 中 ， | [A-Za-z]+| 匹配 第 一 个 ‘the’。 因 为 这 个 子 表达 式 在 括号 中 ， 所 以 "\1 | 代表 的 文 
本 就 是 ‘the*。 如 果 1-+| 能 够 匹配 ， 后 面 的 \1| 要 匹配 的 文本 就 是 ‘the?。 如 果 M) 也 能 成 功 匹 配 ， 最 后 的 
\> | 对 应 单词 的 结尾 (如 果 文 本 是 “the-theft*， 这 一 条 就 不 满足 ) 。 如 果 整 个 表达 式 能 匹配 成 功 ， 我 们 就 
得 到 一 个 重复 单词 。 有 的 重复 单词 并 不 是 错误 ， 例 如 ‘that that’? (译注 3) ， 这 并 不 是 正则 表达 式 的 错误 ， 真 
正 的 判断 还 得 和 菲 人 。 我 决定 使 用 上 和 面 这 个 例子 的 时 候 ， 己 经 用 这 个 表达 式 检 查 过 本 书 之 前 的 内 容 了 (我 使 
用 的 是 支持 '\<..A> | 和 反 向 引用 的 egrep) 。 我 还 使 用 了 第 15 页 提 到 的 忽略 大 小 写 的 参数 -i 来 拓宽 它 的 适 
用 范围 〈 注 8) ， 所 以 ‘The:the? 这 样 的 单词 重复 也 能 提取 出 来 。 

我 使 用 的 命令 如 下 : 

Yegrep-i'\< ([a-z]+)+\1\>'files... 

结 末 令 我 司 奇 ， 拓 然 找到 了 14 组 重复 单词 。 我 把 它们 全 都 改正 了 ， 而 且 把 这 个 表达 式 添 加 到 我 用 来 检 
查 本 书 拼 写 错误 的 工具 中 ， 保 证 从 此 以 后 全 书 中 不 会 出 现 这 样 的 错误 。 

尽管 这 个 表达 式 很 有 用 ， 我 们 仍然 需要 重视 它 的 局 限 。 因 为 egrep 把 每 行文 字 都 当 作 一 个 独立 部 分 来 看 
符 ， 所 以 如 果 单 词 重 复 的 第 一 个 单词 在 茶 行 末尾 ， 第 二 个 单词 在 下 一 行 的 开头 ， 这 个 表达 陈 就 无 法 找到 。 
所 以 ， 我 们 需要 更 加 灵活 的 工具 ， 下 一 章 我 们 会 看 到 这 方面 的 例子 。 


神奇 的 转 义 

















The Great Escape 
有 个 重要 的 问题 我 尚未 提 及 ， 即 : 如 采 需 要 匹配 的 茶 个 字符 本 吴 融 是 元 字符 ， 正 则 表达 式 会 如 何 处 理 
WE? 例如， 如 果 我 想 要 检索 互联 网 的 主机 名 ega.att.com， 使 用 “ega.att.com | 可 能 得 到 


TSgena coDP 09 的 结果 。 还 记得 吗 ? .| 本 身 就 是 元 字符 ， 它 可 以 匹配 任何 字符 ， 包 括 空格 。 

真正 匹配 文本 中 点 号 的 元 序列 应 该 是 反 斜 线 (backslash) 加 上 点 号 的 组 合 : egavattcom| 。 [\.) 称 
为 “ 转 义 的 点 号 ”或 者 “ 转 义 的 句号”， 这 样 的 办 法 适用 于 所 有 的 元 人 字符， 不 过 在 字符 组 内 部 无 效 ( 注 9) 。 

这 样 使 用 的 反 笠 线 称 为 “ 转 义 符 Cescape) ”一 一 它 作 用 的 元 字符 会 失去 特殊 售 义 ， 成 了 普通 字 人 条。 如 
采 你 愿意 ， 也 可 以 把 转 义 竺 和 它 之 后 的 元 字符 看 作 特 殊 的 元 字符 序列 ， 这 个 元 字符 序列 匹配 的 是 元 字符 对 
应 的 普通 字符 。 这 两 种 看 法 是 等 价 的 。 

我 们 还 可 以 用 \〈[a-zA-Z]+\) | 来 匹配 一 个 括号 内 的 单词 ， 例 如 (very)，。 在 开 闭 括号 之 前 的 反 和 斜 
线 消 除了 开 财 括 写 的 特殊 意义 ， 于 是 他 们 能 够 轧 配 文本 中 的 开 闭 括 与 。 

如 果 反 和 鲜 线 后 案 跟 的 不 是 元 字符 ， 反 冬 线 的 意义 束 依 程序 的 版 本 而 定 。 例 如 ， 我 们 已 经 知道 ， 茶 些 版 
本 的 程序 把 \<， . > |， My 当 作 元 字符 序列 对 待 。 在 后 面 的 章节 中 我 们 会 看 到 更 多 的 例子 。 














[| 日 日 Linux[| || www.linuxide.com [] [] 


基础 知识 拓展 


Expanding the Foundation 
我 希望 ， 前 面 的 例子 和 解释 已 经 帮助 读者 牢固 地 打下 了 正则 表达 云 的 基础 ， 也 请 读者 明日 ， 这 些 例子 
祁 很 浅显 ， 我 们 需要 党 握 的 还 有 很 多 。 


te Bi WY Ze 


Linguistic Diversification 

我 已 经 介绍 过 大 多 数 版 本 的 egrep 文 持 的 正则 表达 式 的 特性 ， 这 样 的 特性 还 有 很 多 ， 其 中 一 些 并 不 十 所 
有 的 版 本 都 文 持 ， 这 个 问题 留 到 后 面 的 章节 讲解 。 

任何 语言 中 都 存在 不 同 的 方言 和 口音 ， 很 不 笠 ， 正 则 表达 去 也 一 样 。 情 况 似乎 是 ， 每 一 种 文 持 正 则 表 
过 云 的 语言 都 提供 了 目 己 的 “改进 ?”。 正 则 表达 云 不断 肥 展 ， 但 多 年 的 变化 也 造 束 了 数目 众多 的 正则 表达 
AMIR” flavor) 。 我 们 会 在 下 面 的 章节 中 见 到 各 种 例子 。 


正则 表达 式 的 目标 











The Goal of a Regular Expression 

从 最 宏观 的 角度 看 ， 一 个 正则 表达 式 要 么 能 够 匹配 给 定 文 本 《对 egrep 来 说， 残 是 一 行文 本 ) PARR HE 
字符 ， 要 么 不 能 匹配 。 在 编写 正则 表达 却 的 时 候 ， 我 们 必须 进行 权衡 : 匹配 符合 要 求 的 文本 ， 同 时 忽略 不 
符合 要 求 的 文本 。 

尽管 egrep 不 关心 匹配 文本 在 行 中 的 位 置 ， 但 对 正则 表达 陈 的 其 他 应 用 来 说 ， 这 个 问题 却 很 重要 。 如 栗 
文本 是 这 样 : 

...Zip is 44272.I you write,send $4.95 to cover postage and... 

我 们 只 希望 找 出 包含 “[0-9]+| 的 那些 行 ， 就 不 需要 关心 真正 匹配 的 数字 。 相 反 ， 如 果 我 们 需要 操作 这 
此 数字 例如 保存 到 文件 、 添 加 、 普 换 之 类 一 我 们 会 在 下 一 章 看 到 这 样 的 处 理 ) ， 就 需要 关心 确切 匹配 
9 那些 数字 。 














更 多 的 例子 


A Few More Examples 

在 任何 语言 中 ， 经 验 都 是 非常 重要 的 ， 所 以 我 会 给 出 更 多 用 正则 表达 式 匹 配 第 用 文本 结构 的 例子 。 

编写 正则 表达 式 时 ， 按 照 预期 获得 成 功 的 匹配 要 伦 去 一 半 的 工 去， 画 一 半 的 工夫 用 来 考虑 如 何 忽略 那 
些 不 符合 要 求 的 文本 。 在 实践 中 ， 这 两 方面 都 非 钊 重要 ， 但 是 目前 我 们 只 关注 “获得 成 功 匹 配 ?的 方面 。 即 
使 我 没有 对 这 些 例子 进行 最 全 面 彻 夸 的 解释 ， 它 们 仍然 能 够 提供 有 用 的 局 示 。 

变量 名 

许多 程序 设计 语言 都 有 标识 符 〈identifier， 例 如 变量 名 ) 的 概念 ， 标 识 符 只 包含 字母 、 数 字 以 及 下 男 
线 ， 但 不 能 以 数字 开头 。 我 们 可 以 用 [azA-Z_][a-zA-Z_0-9]* | 来 匹配 标识 符 。 第 一 个 字符 组 匹配 可 能 出 
现 的 第 一 个 字符 ， 第 二 个 〈 包 括 对 应 的 类 | ) 匹配 余下 的 字符 。 如 果 标 识 符 的 长 度 有 限制 ， 例 如 最 长 只 能 
是 32 个 字符 ， 又 能 使 用 第 20 页 介绍 的 区 间 量 词 min, max}, RAAUA {0，31} | 来 蔡 代 最 后 的 
| ie 

a] a A ASE RE R 

匹配 引号 内 的 字符 串 最 简单 的 办 法 是 使 用 这 个 表达 式 : TIA" |e"). 

两 端的 引 写 用 来 下 配 字 符 串 开 尖 和 结尾 的 引号 。 在 这 两 个 引号 之 间 的 文本 可 以 包括 双 引 号 之 外 的 任何 
字符 。 所 以 我 们 用 [入 "]| 来 匹配 除 双 引 号 之 外 的 任何 字符 ， 用 “x* | 来 表示 两 个 引号 之 间 可 以 存在 任意 数 
A AYSE RL S| SF FF 

RES SEHR, HAA BERI) WENE, Pasi AY MS] SoZ MB) AY e E M Bc ee OY XM | 
y, MN" nail-the-2\" x4 " .plank " > Æ Je TE KY Se [iy FAP ICIS Bath SH PA RA EE ANA [7 

















美元 金额 (可 能 包含 小 数 ) 

|\$[0-9]+ (\.[0-9][0-9]) ? | 是 一 种 匹配 美元 金额 的 办 法 。 

从 整体 上 看 ， 这 个 表达 式 很 简单 ， 分 为 三 部 分 :TS AMT G)? ，， 可 以 大 致 理解 为 :一 
个 美元 符 写 ， 然 后 是 一 组 字符 ， 最 后 可 能 还 有 男 一 组 字符 。 这 里 的 “字符 ” 指 的 是 数字 一 组 数字 构成 一 个 
数值 ) ,“ 另 一 组 字符 ?和 是 由 一 个 小 数 点 和 两 位 数字 构成 的 。 

从 几 个 方面 来 看 ， 这 个 表达 式 还 很 简陋 。 比 如 ， 写 只 能 接 党 $1000， 而 无 法 接受 $1，000。 捷 确实 能 接 
受 可 能 出 现 的 小 数 部 分 ， 但 对 于 egrep 来 说 意义 不 大 。 因 为 egrep 从 不 关心 匹配 文字 的 内 容 ， 而 只 关心 是 个 存 
在 匹配 。 处 理 可 能 出 现 的 小 数 部 分 对 整个 表达 式 能 否 匹 配 并 没有 影 啊 。 

但 是 ， 如 果 我 们 需要 找到 只 包含 价格 而 不 含 其 他 字符 的 行 ， 倒 是 可 以 在 这 个 表达 式 两 端 加 上 ^...$| 。 
这 样 一 来 ， 可 选 的 小 数 部 分 惑 变 得 很 重要 了 ， 因 为 在 金额 数值 和 换行 符 之 间 是 否 存 在 小 数 部 分 ， 雇 定 了 整 
个 表达 陈 的 匹配 结果 是 侣 存在 甜 弄 。 

另外 ， 这 个 正则 表达 式 还 无 法 匹配 5.49:。 你 可 能 认为 把 加 亏 换 成 星 号 能 够 解决 问题 ， 不 过 这 条 路 走 不 
WH. FEKETE SRY, ARPA (194) 揭晓 。 

HTTP/HTML URL 

Web URLINJZSUAT REARS FH, MAKEA pen Vic 2 SURLY JE Wy er SU MERE. AS 
过 ， 稍 微 降 低 一 点 要 求 的 话 ， 我 们 能 够 用 一 个 相当 和沙 单 的 正则 表达 陈 来 匹配 大 多 数 弟 见 的 URL。 进 行 这 种 
检索 的 原因 之 一 是 ， 我 只 能 大 概 记 得 在 收 到 的 某 封 邮件 中 有 一 个 URL 地 址 ， 不 过 一 见 到 它 我 束 能 认 出 来 。 

常见 的 HTTP/HTML URL 是 下 面 这 样 的 : 

http://hostname/path.html 

当然 ，.htm 的 结尾 也 很 常见 。 

hostname 〈 主 机 名 ， 例 如 www.yahoo.com) 的 规则 比较 复杂 ， 但 是 我 们 知道 ， 跟 在 ‘http: //? 之 后 的 就 有 
可 能 是 主机 名 ， 所 以 这 个 正则 表达 式 就 很 简单 ，“ [-a-z0-9_.]+， 。path 部 分 的 变化 更 多 ， 所 以 我 们 需要 使 用 
[-a-z0-9_: @&? =+，.! /~*%$]*) 。 请 注意 ， 连 字符 必须 放 在 字符 组 的 开头 ， 保 证 它 是 一 个 普通 字 
从， 而 不 是 用 来 表示 光 围 (全 9) 。 

综合 起 来 ， 我 们 第 一 次 笠 试 的 正则 表达 式 束 是 : 

%egrep-i '\<http://[-a-z0-9_.:]+/[-a-z0-9_:@&?=+,.!/~ * %$] * \.html?\>"' files 

因为 我 们 降低 了 对 匹配 的 要 求 ， 所 以 ‘http: /foo.html' 也 能 匹配 ， 虽 然 它 显然 不 是 一 个 合法 的 
URL。 我 们 需要 关心 这 一 点 吗 ?这 取决 于 具体 的 情况 。 如 有 果 我 只 是 需要 扫 摘 上 自己 的 E-mail， 得 到 一 些 错误 
结果 并 不 算是 问题 。 而 且 ， 我 没准 会 用 更 简单 的 表达 式 : 

%egrep-i '\<http://[A] * \.html?\>' files... 

在 深入 了 解 如 何 调 校正 则 表达 陈 之 后 ， 读 者 会 明白 ， 要 想 在 复杂 性 和 完整 性 之 间 求 得 平衡 ， 一 个 重要 
的 因素 是 了 解 每 搜索 的 文本 。 下 一 半 ， 我 们 会 更 详细 地 考察 这 个 例子 。 

HTML tag 

对 egrep 这 样 的 工具 来 说 ， 简 单 地 匹配 包含 HTML tag 的 行 并 不 常见 ， 也 没什么 用 。 但 是 ， 探 索 如 何 准 
ffi VLC “SHTML tag 却 是 相当 有 局 友 的 ， 在 下 一 章 深 入 接触 更 高 级 的 工具 时 ， 这 一 点 尤其 明显 。 

简单 的 例子 包括 *<TITLE>' 和 :<HR>'， 我 们 可 能 会 想到 |<<.x* > | 。 这 个 简单 的 表达 式 往往 是 最 直 
接 的 想法 ， 但 它 显然 是 不 对 的 。 '<.4>, 的 意思 是 ，“ 先 匹配 一 个 ‘<，*， 然 后 是 任意 多 个 任意 字符 ， 然 后 
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是 >”。 所 以 ， 它 无 疑 能 够 匹配 不 止 一 个 tag 的 内 容 ， 例 如 'this example’ 中 标记 的 内 容 。 

也 许 结 果 有 点 出 平 你 的 意料 ， 但 是 我 们 目前 还 只 在 第 1 章 ， 对 正则 表达 式 的 理解 也 不 够 深入 。 我 之 所 
以 举 这 个 例子 ， 是 想 说 明正 则 表达 式 并 不 复杂 ， 但 是 如 果 你 不 真正 弄 全 它们 ， 可 能 会 被 捅 得 军 头 转 癌 。 在 
下 面 的 几 章 中 ， 我 们 会 学 习 理 解 和 解决 这 个 问题 需要 的 所 有 细节 。 

表示 时 刻 的 文字 ， 例 如 “9: 17 am” 或 者 “12: 30 pm” 

匹配 表示 时 刻 的 文字 可 能 有 不 同 的 严格 程度 。 

[0-9]?[0-9]:[0-9][0-9].(amlpm) ， 


能 够 匹配 9: 17.am 或 者 12: 30-pm, (EE REDE EEPE FOBT Ft GPP: TP Www. linuxidc.com opo 





首先 看 小 时 数 ， 我 们 知道 ， 如 果 小 时 数 是 一 个 两 位 数 ， 第 一 位 只 能 是 1。 但 是 1? [0-9] | 仍然 能 够 匹 
AC19 CEBREIRO) ， 所 以 更 好 的 办 法 应 该 是 把 小 时 部 分 分 为 两 种 情况 来 处 理 ， [1[012] | 匹配 两 位 数 ， 
[1-9] | 匹配 一 位 数 ， 结 果 就 是 (1[012]I[1-9]) | 。 

分 钟 数 就 简单 些 。 第 一 位 数字 应 该 是 [[0-5]| ， 此 时 第 二 位 数字 应 该 是 [0-9]| 。 综 合 起 来 就 是 
| (1[012]|[1-9]) : [0-5][0-9]; (am|pm) , . 

举一反三 ， 你 能 够 处 理 24 小 时 制 的 时 间 吗 ?多 动 动脑 筋 ， 想 想 该 如 何 处 理 以 0 开头 的 情况 ， 比 如 09: 59 
E? OF Bia IL PM. 


正则 表达 式 术 语汇 忌 


Regular Expression Nomenclature 

正则 (regex) 

你 或 许 已 经 猜 到 了 , “正则 表达 式 ”(regular expression) 这 个 全 名 念 起 来 有 点 麻 烦 ， 写 出 来 束 更 奈 烦 。 
所 以 ， 我 一 般 会 采用 “正则 ”(regex〉 的 说 法 。 这 个 单词 念 起 来 很 流畅 (有 点 像 联邦 快递 的 FedEx， 与 
regular 一 样 ，g 发 午 首 ， 而 不 同 于 Regina) ， 而 且说 “如 果 你 写 一 个 正则 ”，“ 巧 妙 的 正则 ” (budding 
regexers) ， 甚 至 是 “正则 化 ”(regexification) 〈 注 10) (译注 4) 。 

匹配 (matching) 

一 个 正则 表达 式 “ 匹 配 ? 一 个 字符 串 ， 其 实 是 指 这 个 正则 表达 式 能 在 字符 串 中 找到 匹配 文本 。 严 格 地 
说 ， 正 则 表达 式 “al 不 能 匹配 cat， 但 是 能 匹配 cat 中 的 a。 几 乎 没 人 会 混淆 这 两 个 概念 ， 但 澄清 一 下 还 是 
有 必要 的 。 

元 字符 Cmetacharacter ) 

一 个 字符 是 否 元 字符 《或 者 是 “元 字符 序列 ”(metasequence ) ， 这 两 个 概念 是 相等 的 ) ， 取 决 于 应 用 的 
具体 情况 。 例 如 ， 只 有 在 字符 组 外 部 并 且 是 在 未 转 义 的 情况 下 ，“x | 才 是 一 个 元 字符 。“ 转 
X” Cescaped) 的 意思 是 ， 通 常情 况 下 在 这 个 字符 之 前 有 一 个 反 斜 线 。 \ 类 | 是 对 大 | 的 转 义 ， 而 We, 
则 不 是 (第 一 个 反 冬 线 用 来 转 义 第 二 个 反 和 斜 线 ) ， 虽 然 在 两 个 例子 中 ， 星 号 之 前 都 有 一 个 反 斜 线 。 

正则 表达 式 的 流派 Clavo) 不 同 ， 关 于 字符 转 义 的 规定 也 不 相同 。 第 3 章 对 此 进行 了 详细 讨论 。 

流派 (flavor) 

我 已 经 说 过 ， 不 同 的 工具 使 用 不 同 的 正则 表达 式 完 成 不 同 的 任务 ， 每 样 工 具 文 持 的 元 字符 和 其 他 特性 
各 有 不 同 。 我 们 再 举 单 词 分 界 符 的 例子 。 菜 些 版 本 的 egrep 文 持 我 们 曾 见 过 的 \ 达 ...\ 过 表示 法 。 而 男 一 些 版 
本 不 支持 单独 的 起 始 和 结束 边界 ， 只 提供 了 统一 的 Nb) 元 字符 (这 个 元 字符 我 们 还 没 见 过 ， 下 一 章 才 会 用 
到 ) 。 还 有 些 工具 同时 支持 这 两 种 表示 法 ， 男 有 许多 工具 哪 种 也 不 文 持 。 

我 用 “流派 (flavor) ”这 个 词 来 描述 所 有 这 些 细微 的 实现 规定 。 这 残 好 像 不 同 的 人 说 不 同 的 方言 一 样 。 
从 表面 上 看 , “流派 ? 指 的 是 天 于 元 字符 的 规定 ， 但 它 的 内 容 远 远 不 止 这 些 。 

即使 两 个 程序 都 支持 \<..\>| ， 它 们 可 能 对 这 两 个 元 字符 的 意义 有 不 同 的 理解 ， 对 单词 的 理解 也 不 
相同 。 在 使 用 有 共 体 的 工具 软件 时 ， 这 个 问题 尤其 重要 。 




















[| 日 日 Linux[| || www.linuxide.com [] [] 





改进 匹配 时 间 的 表达 式 ， 处 理 24 小 时 制 时 间 
o 26 页 问题 的 答案 
办 法 有 许多 种 , 不 过 思路 和 之 前 差不多 。 现 在 我 们 把 问题 分 为 3 部 分 : 其 一 是 上 午 (小 


时 数 从 00 到 09, 开头 的 0 可 选 )， 其 二 是 和 白天 (小 时 数 从 10 到 19)， 其 三 是 夜晚 (小 
时 数 从 20 到 23)。 这 样 答案 就 很 明显 了 : 0?[0-9]11[0-9]12[00-3],。 


mep 我 们 可 以 合并 头 两 个 多 选 分 支 ， 得 到 [ 9]12[0-3] J。 你 可 能 需要 动 
人 六 ve sd ent 
了 另 一 种 思路 。 阴 影 部 分 表示 单个 多 选 分 支 能 够 匹配 的 数字 。 


EB & 
(01)? (0-9) |20EST (02) 74-91 min 


上 
ibaa nia genres 





ta RAI (lavor) ”和 “工具 (tool) ”这 两 个 概念 。 两 个 人 可 以 说 同样 的 方言 ， 两 个 完全 不 同 
的 程序 也 可 能 属于 同样 的 流派 。 同 样 ， 两 个 名 字 相 同 的 程序 (解决 的 任务 也 相同 所 属 的 流派 可 能 有 细微 
(有 时 可 能 并 非 细 微 〉 的 又 别 。 有 许多 程序 都 叫 egrep， 它 们 所 属 的 流派 也 五 花 八 门 。 

由 Perl 语 言 的 正则 表达 陈 开 创 的 流派 ， 在 20 世 纪 90 年 代 中 期 因为 其 强大 的 表达 能 力 广 为 人 们 所 知 ， 其 
他 语言 蛇 随 其 后 ， 提 供 了 汲取 其 中 灵感 的 正则 表达 陈 《其 中 许多 为 了 标明 目 己 的 思想 来 源 ， 直 接 给 目 己 贴 
LE“it#¥Perl (Perl-Compatible) HJR) 。 它 们 包括 PHP、Python、Java 的 大 量 正则 包 ， 和 微软 的 .NET 
Framework、Tcl， 以 及 C 的 各 种 类 库 。 不 过 ， 上 所 有 这 些 语言 在 重要 的 方面 各 有 不 同 。 而 且 Perl 的 正则 表达 
式 也 在 不 断 演化 和 人 发展 〈 现 在 ， 有 时 候 是 党 了 其 他 语言 的 正则 表达 式 的 刺激 ) 。 像 往 第 一 样 ， 总 的 局 面 变 
FG BOR ERR AR, TEATS. 

子 表 达 式 (subexpression) 

“ 子 表达 式 ” 指 的 是 整个 正则 表达 式 中 的 一 部 分 ， 通 常 是 括号 内 的 表达 式 ， 或 者 是 由 “|| 分 隔 的 多 选 分 
支 。 例如， 在 ^ (Subject|Date) : :| 中 ， Sopjec Dare 通常 被 视 为 一 个 子 表 达 式 。 其 中 的 “Subject 和 
Date, 也 算得 上 子 表达 式 。 而 且 ， 严 格 说 起 来 ，1S| uj bi j 这 些 字符 ， 都 算 子 表达 式 。 

1-6 这 样 的 字符 序列 并 不 能 算 1H[1-6]: 类 | 的 子 表达 式 ， 因 为 ‘1-6' 所 属 的 字符 组 是 不 可 分 割 的 “单元 
Cunit) ”。 但 是 ， HI 、 [1-6]| b>) 都 是 1H[1-6]:* | 的 子 表 达 式 。 

与 多 选 分 文 不 同 的 是 ， i (ES, mee 作用 的 对 象 是 它们 之 前 紧邻 的 子 表达 式 。 所 以 
mis+pell| 中 的 + 作用 的 是 's| ， 而 不 是 mis | RÆ lis 。 当 然 ， 如 果 量词 之 前 紧邻 的 是 一 个 括号 包围 的 
子 表达 式 ， 整 个 了 表达 式 〈 无 论 多 复 森 ) 都 被 视 为 一 个 单元 。 

字符 (character) 

“字符 ”在 计算 机 领域 是 一 个 有 特殊 意义 的 单词 。 一 11 A a ee IT 


字 节 的 值 不 会 变化 ， 但 这 个 值 所 代表 的 字符 却 是 由 解释 所 编 色 来 决定 H, ERT 
在 ASCII 编 码 中 分 别 代表 了 字符 “@” 和 “5”， (Ep ah dy MANTA am EO 








> Aly 


是 控制 字符 ) 。 
男 一 方面 ， 在 流行 的 日 文字 人 符 编 码 中 ， 这 两 个 字 节 代表 一 个 字符 正 。 如 果 换 一 种 日 文字 符 编 码 ， 这 个 


字 台 需要 两 个 完全 不 同 的 字 节 。 那 两 个 字 节 ， 在 通行 的 Latin-1 编 码 中 ， 和 表示“ ”， 而 在 Unicode 编码 中 
Al 

又 表示 韩文 的 < “i ”( 注 11) 。 问 题 在 于 ， 字 节 如 何 解释 只 是 视角 〈 称 为 “编码 "encoding) 的 问题 ， 我 们 要 

做 的 只 是 确保 自己 的 视角 和 正在 使 用 的 工具 的 视角 相同 。 

一 直 以 来 ， 文 本 处 理 软件 一 般 都 把 数据 视 为 一 些 ASCII 编码 的 字 节 ， 而 不 考虑 使 用 者 期 望 采用 的 字符 
编码 。 不 过 ， 近 来 已经 有 越 来 越 多 的 系统 在 内 部 使 用 东 些 格式 的 Unicode 编 码 来 处 理 数 据 〈 第 3 章 介 绍 了 
Unicode, 105) 。 如 条 这 些 系统 中 的 正则 表达 式 子 系统 的 实现 方式 正确 ， 使 用 者 通 第 融 不 需要 在 编码 的 
问题 上 届 太 多 工夫 。 这 个 “如 条? 相当 复杂 ， 所 以 第 3 章 深入 讲解 了 这 个 问题 。 


改进 现状 





Improving on the Status Quo 

总 的 来 说 ， 正 则 表达 却 并 不 难 。 但 是 ， 如 末 你 与 使 用 过 文 持 正则 表达 式 的 程序 或 语言 的 人 交流 过 残 会 
及 现 ， 示 些 人 确实 “会 用 ?正则 表达 式 ， 但 如 条 需要 解雇 复杂 的 问题 ， 或 是 换 用 他 们 不 贺 悉 的 工具 ， 束 会 出 
问题 。 

传统 的 正则 表达 式 文档 大 都 只 包含 一 两 个 元 字符 的 简略 介绍 ， 然 后 束 给 出 天 于 其 他 元 字符 的 表格 。 给 
出 的 例子 通常 也 是 无 意义 的 ax ( Cab) |b) | ， 文 本 则 是 ‘a+xxx:ce-xxxxxx ciixxx*d?。 这 些 文档 大 都 
忽略 了 细微 但 重要 的 知识 点 ， 忆 是 声称 目 己 与 其 他 出 名 的 工具 属于 同一 流派 ， 而 下 记 所 及 必然 存在 的 锚 
Feo ENR SAME. 

ZA, FIN RUBS AN, ASAE TAY, Lhe Sera EIRAN, Bit St fegrepHy IE 
则 表达 式 。 相 反 ， 这 一 草 只 是 为 本 书 的 其 他 内 容 铺垫 基础 。 我 希望 本 书 能 够 为 该 者 填补 这 道 鸿 沟 ， 虽 然 这 
期 望 有 点 目 负 。 很 多 读者 很 满意 本 书 的 第 一 版 ， 我 本 人 也 为 拓展 这 一 版 的 深度 和 广度 付出 了 艰 二 的 努力 。 

或 许 是 因为 正则 表达 式 的 文档 一 直 痢 非常 欠缺 ， 我 感到 目 己 必须 做 出 额外 的 努力 ， 才 能 把 知识 机 理 清 
楚 。 因 为 我 名望 你 证 读者 能 够 元 分 运用 正则 表达 式 的 潜力 ， 我 铅 望 你 们 能 够 真正 精通 正则 表达 式 。 

这 既是 件 好 事 也 是 件 坏事 。 

好 处 在 于 ， 你 将 学 会 如 何以 正则 表达 式 的 方式 来 思考 问题 。 你 将 学 习 到 ， 在 面 对 属 于 不 同 流 派 的 新 工 
其 时 ， 需 要 注意 哪些 劳 寞 和 特性 。 你 还 将 会 学 习 到 ， 如 来 某 个 流派 的 功能 惜 小 、 特 性 简陋 ， 该 如 何 表达 目 
己 的 意图 。 你 将 会 明日 ， 一 个 正则 表达 陈 的 效率 优 于 其 他 表达 陈 的 原因 所 在 ， 而 且 你 将 能 够 在 复杂 性 、 效 
率 和 匹配 准确 性 间 进 行 取舍 权衡。 

面 对 特 别 复杂 的 任务 ， 你 将 会 知道 如 何 通 过 程序 容许 的 方式 来 构建 和 使 用 正则 表达 式 。 总 的 来 说 ， 你 
能 够 得 心 应 手 地 使 用 正则 表达 式 的 所 有 湾 能 。 

问题 在 于 ， 这 种 方法 的 学 习 曲 线 非 钊 陡峭 ， 而 且 还 有 几 大 难点 : 

e 上 上 则 表达 式 的 使 用 许多 程序 使 用 的 正则 表达 式 比 egrep 要 复杂 。 在 我 们 探讨 如 何 构 造 真 正 有 用 的 正则 
表达 式 的 细 市 之 前 ， 需 要 知道 正则 表达 式 的 使 用 方法 。 下 一 章 关注 这 一 问题 。 

e 小 则 表达 式 的 特性 (feature) ”和 面 对 问 题 ， 选 择 合适 的 工 上 其 是 成 功 的 一 半 ， 所 以 我 会 在 全 书 中 使 用 多 
种 工具 。 不 同 的 程序 ， 其 至 是 同一 个 程序 的 不 同 版 本 ， 文 持 的 符 性 和 元 字符 都 不 一 样 。 在 了 解 使 用 细节 之 
前 ， 我 们 必须 搞 清 楚 这 个 问题 。 这 是 第 3 章 的 主题 。 

e 正 则 表达 陈 的 工作 诛 理 在 我 们 接触 有 用 (但 通 沼 也 很 复杂 〉 的 例子 之 前 ， 我 们 必须 “ 揭 开 盖子 ”来 了 
解 正 则 表达 式 的 工作 原理 。 我 们 将 会 看 到 ， 对 茶 些 元 字符 进行 答 试 匹配 的 次 序 是 一 个 重要 的 问题 。 实 际 
E, ENKAZ (regular expression engine) 不 同 ， 工 作 原 理 也 不 同 ， 所 以 对 于 同样 的 正则 表达 式 ， 不 
同 的 程序 会 得 到 不 同 的 结 末 。 我 们 将 在 第 4、5、6 章 中 探讨 这 个 复杂 的 问题 。 

TEU ASIA SN AY LE RS Ae se EE TY He EA ERA A We PT a | BERS 
ME Bea TE Berit TEA RI ARERR [H) L—_z HW, MRA ETAC ET. PATIO, FEE 
则 表达 式 的 工作 原理 ， 才 是 真正 理解 的 关键 。 

你 或 许 会 想 ， 如 有 果 只 项 望 学 会 开车 ， 是 不 需要 了 解 汽 车 运行 原理 的 。 但 是 ， 和 学 习 开 车 与 学 习 正 则 表达 
式 之 间 并 没有 多 少 相 似 性 。 我 的 目的 是 教会 读者 如 何 使 用 正则 表达 式 一 一 也 就 古 编写 正则 表达 式 一 一 来 解 


决 问题 。 更 合适 的 比喻 是 ， 学 习 正 则 表达 式 就 如 同 内 慎 如 向 光 克 ;6 大 吓 旭 何 汞 大 w MALE EIA FR 


























们 必须 了 解 汽 车 的 工作 原理 。 

第 2 章 提 供 了 更 多 的 天 于 开车 的 经 验 。 第 3 HREM S AHERE, EWER S ERIE 
主要 内 容 。 第 4 革 介 绍 了 正则 表达 式 流派 的 重要 的 引擎 。 第 5 重 展 示 了 一 些 更 复杂 的 例子 ， 第 6 章 告 诉 你 如 
何 调 校 东 种 具体 的 引擎 ， 之 后 的 各 草 则 是 检查 具体 的 产品 和 模型 。 在 第 4、5、6 草 中 ， 我 们 化 了 大 量 的 篇 幅 
来 探讨 戎 后 的 原理 ， 所 以 请 务必 做 好 准备 。 


Summary 
表 1-3 总 结 了 我 们 在 本 章 中 见 过 的 egrep 的 元 字符 。 


表 1-3: egrep 的 元 字符 总 结 


匹配 单个 字符 的 元 字符 
元 字符 匹配 对 象 
| 匹配 单个 任意 字符 
pa] 字符 组 匹配 单个 列 出 的 字符 
[~…] | 排除 型 字符 组 匹配 单个 未 列 出 的 字符 
HYPE = char RAT & 或 转 义 序列 无 特殊 含义 时 , 匹配 
char 对 应 的 普通 字符 
提供 计数 功能 的 元 字符 
; 问号 容许 匹配 一 次 ， 但 非 必须 


Ae 
3 THERESE, TEREK 
ee | EY ERER—K, ESTRERER 
至 少 需 要 Mmin 次 ， 至 多 容许 max xk 
匹配 位 置 的 元 字符 


E TE 


匹配 单词 的 开始 位 置 
匹配 单词 的 结束 位 置 
其 他 元 字符 
| 匹配 任意 分 隔 的 表达 式 
限定 多 选 结 构 的 范围 ， 标 注 量词 作用 的 元 素 ， 为 反 
向 引用 捕获 文本 
匹配 之 前 的 第 一 、 第 二 组 括号 内 的 字 表 达 式 匹配 的 
文本 





{min, max} 





TA ... 反 向 引用 " 





并非 所 有 版 本 的 egrep 都 支持 
此 外 ， 请 务必 理解 以 下 几 点 : 
e 各 个 egrep 程序 是 有 差别 的 。 它 们 支持 的 元 字符 ， 以 及 这 些 元 字符 的 确切 含义 ， 通 常 都 有 差别 一 一 请 
参考 相应 的 文档 (号 23) 。 中 品目 DLLinux |] www.linuxidc.com [| [] 





e 使 用 括号 的 3 个 理由 是 : 限制 多 选 结构 C13) 、 分 组 CP 14) 和 捕获 文本 C21) 。 

e 字 从 组 的 特殊 性 在 于 ， 关 于 元 字符 的 规定 是 完全 独立 于 正则 表达 式 语 言 “ 主 体 ” 的 。 

e 多 选 结构 和 字符 组 是 截然 不 同 的 ， 它 们 的 功能 完全 不 同 ， 只 是 在 有 限 的 情况 下 ， 它 们 的 表现 相同 
(#13). 

e 排 除 型 字符 组 同样 是 一 种 “肯定 断言 ”(positive assertion ) 即使 它 的 名 字 里 包 含 了 “排除 ”两 个 字 ， 
它 仍然 需要 逻 配 一 个 字符 。 只 是 因为 列 出 的 字符 都 会 被 排除 ， 所 以 最 终 罗 配 的 字 从 肯定 不 在 列 出 的 字符 之 
内 (二 12) 。 

e-i 的 参数 很 有 用 ， 它 能 进行 忽略 大 小 写 的 匹配 C15) 。 

e 转 义 有 3 种 情况 : 

1. Ay 加 上 元 字符 ， 表 示 匹 配 元 字符 所 使 用 的 普通 字符 〈 例 如 AX] 多 配 普通 的 星 写 ) 。 

2.\| 加 上 非 元 字符 ， 组 成 一 种 由 具体 实现 方式 规定 其 意义 的 元 字符 序列 〈 例 如， A<) 表示 “单词 的 
起 始 边 界 ”) 。 

3. \| 加 上 任意 其 他 字符 ， SU ts OU te VO ACU EF 〈 也 束 是 说 ， 反 和 斜 线 被 忽略 了 ) 。 请 记 住 ， 对 大 
多 数 版 本 的 egrep 来 说 ， 字 符 组 内 部 的 反 斜 线 没 有 任何 特殊 意义 ， 所 以 此 时 它 并 不 是 一 个 转 义 字符 。 

e 由 星 号 和 问 志 限定 的 对 象 在 “匹配 成 功 ” 时 可 能 并 没有 匹配 任何 字符 。 即 使 什么 字符 都 不 能 匹配 到 ， 写 


们 仍然 会 报告 “匹配 成 功 ”。 
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Personal Glimpses 

本 章 开 始 的 单词 重复 的 例子 可 能 有 些 让 人 迷惑 ， 不 过 正则 表达 式 的 功能 的 确 很 强大 ， 我 们 只 需要 egrep 
这 样 简单 的 工具 ， 用 第 1 章 的 知识 ， 就 能 够 基本 解决 这 个 问题 。 我 倒是 硕 望 在 本 章 多 讲 些 复杂 点 的 例子， 但 
是 因为 我 希望 用 第 1 章 为 后 面 的 章节 打下 坚实 的 基础 ， 我 担心 ， 如 果 这 一 章 满 是 提醒 、 注 意 、 规 则 之 次， 
那些 从 未 接触 过 正则 表达 式 的 人 在 读 完 之 后 ， 或 许 会 感到 困惑 “需要 这 么 有 厅 烦 吗 ? ” 

我 哥哥 曾 教 朋 友 玩 一 种 叫 schaffkopf ”的 纸牌 游戏 ， 这 个 游戏 在 我 们 家 流传 了 好 几 代 了 。 其 中 真正 的 乐 
趣 并 不 会 在 第 一 次 接触 时 体会 到 ， 而 且 和 学 习 的 曲线 也 很 陡峭 。 我 的 嫂子 丽 兹 平时 是 最 有 耐心 的 人 ， 但 玩 了 
半 个 小 时 束 对 这 些 复 杂 的 规则 感到 灰心 丧气 了 ， 她 说 “我 们 不 能 不 能 玩 兰 米 〈 译 注 5) 吗 ? ”不 过 最 后 的 结果 
是 ， 包 括 丽 兹 在 内 的 所 有 人 都 玩 到 很 晚 。 只 要 度 过 了 开始 的 难关 ， 接 下 来 的 刺激 束 会 引诱 他 们 继续 问 前 。 
我 可 如 知道 肯定 会 这 样 ， 但 丽 北 和 其 他 玩 伴 需要 花费 时 间 和 工夫 来 继续 深入 才能 体会 到 这 个 游戏 的 乐趣 。 

习惯 正则 表达 式 可 能 需要 花 一 些 时 间 ， 所 以 在 你 没有 真切 体会 到 用 正则 表达 式 解 决 问题 的 成 就 感 时 ， 
可 能 会 觉得 这 样 有 点 迁 腐 。 如 果 是 ， 我 希望 你 能 够 抵抗 住 “ 玩 兰 米 游戏 ”的 诱惑 。 一 旦 你 掌握 了 正则 表达 式 
的 强大 功能 ， 束 会 感到 花 在 学 习 上 的 那些 时 间 真 是 物 超 所 值 。 
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Qt 入 门 示 例 拓 展 


Extended Introductory Examples 
还 记得 第 1 章 中 单词 重复 的 例子 吗 ? 我 说 过 ， 完 整 解决 这 个 问题 只 需要 用 Perl 之 类 的 语言 写 儿 行 代码 。 
它 看 起 来 像 是 这 样 : 
$/ = *.\n"; 
while (<>) 4 
next if !s/\b([a-z]+) ((?:\s|<[*>]+>) +) (\1\b) /\e[7mS1\e [m$2\e [7m$3\e [m/ig; 
s/*(2?:[4\e]*\n)+//mg; # 去 除 未 标记 的 行 
s/*/S$ARGV: /mg; # 在 行 首 添 加 文件 名 
printy; 
} 
WEE, he so EIET T o 
BU EVR xT Perl A Ar SAR, REAME EB PR He se EH I BEA (ED HW o RAE, XA 
例子 让 你 看 到 egrep 之 外 的 世界 ， 让 你 有 兴趣 认识 正则 表达 式 的 真正 能 力 。 
该 程序 的 主要 功能 依 菲 3 个 正则 表达 式 : 
© ‘\b(La-z]+) (SN RY NT 


XN] 


EE [A 


] 


尽管 这 是 一 个 Perl 的 例子 ， 但 这 eae ae (或 者 只 需要 做 很 少 的 改动 ) 应 用 到 许 
多 其 他 语言 中 ， 比 如 PHP、Python、Java、VB.NET、Tdl 等 

现在 来 看 这 3 个 表达 式 ， 最 后 的 1^| 很 好 理解 ， 但 是 其 他 的 两 个 表达 式 包含 我 们 在 egrep 中 未 见 过 的 玩 
fa JLe 这 是 因为 Perl 与 egrep 个 属于 同一 个 流派 ， 所 以 某 些 表 示 法 有 所 不 同 ， 而 且 Perl (还 包括 许多 其 他 现代 
的 工具 程序 ) 提供 的 元 字符 远 远 多 于 egrep。 我 们 会 在 这 一 章 中 见 到 许多 例子 。 
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关于 这 些 例子 


About the Examples 

本 章 包 括 了 一 些 第 见 的 问题 一 一 验证 用 户 的 输入 数据 ， 人 处 理 E-mail header (电子 邮件 涉 )， 把 纯 文本 
数据 转换 为 超 文 本 格式 (HTML) ， 通 过 这 些 问 题 ， 你 将 真正 见识 到 正则 表达 式 的 世界 。 在 构造 正则 表达 
式 时 ， 我 会 做 些 尽 可 能 评 细 的 讲解 ， 提 供 一 些 局 示 。 在 这 个 过 程 中 ， 我 们 会 见 到 一 些 egrep 没有 提供 的 结 
构 和 特性 ， 也 会 专门 伦 很 多 篇 幅 来 探讨 其 他 重要 的 概念 。 

在 本 章 的 末尾 及 下 面 的 各 草 中 ， 我 会 使 用 各 种 语言 ， 包 括 PHP. Java 和 VB.NET， 但 是 本 章 中 我 们 主 
要 使 用 的 还 是 Perl。 这 些 语言 ， 当 然 也 包括 其 他 许多 语言 ， 对 正则 表达 式 的 操纵 能 力 都 远 远 强 于 egrep， 上 所 
以 使 用 其 中 任何 一 种 作为 示范 都 会 让 我 们 见 到 许多 有 趣 的 内 容 。 我 选择 以 Perl 开 始 ， 主 要 是 因为 ， 在 所 有 
流行 的 语言 中 Pen 对 正则 表达 式 的 文 持 很 完整 ， 且 易于 使 用 。 而 且 ，Per 还 提供 了 许多 其 他 双 趴 的 数据 处 理 
结构 (data-handling constructs) ， 能 够 减少 所 需 的 “人 简单 重复 元 动 ”(Cdirty work) ， 以 便 我 们 把 精力 集中 到 
正则 表达 式 上 。 

Gh 2 页 出 现 的 文件 检查 的 程序 很 好 地 次 明了 这 种 能 力 ， 我 需要 用 这 个 程序 来 确定 每 个 文件 
中 “ResetSize” 出 现 的 次 数 与 SetSize" 出 现 的 次 数 是 个 一 样 多 。 我 选择 的 语言 是 perl， 命 令 如 下 : 

%perl-One'print “$ARGV\n” if s/ResetSize//ig! =s/SetSize//ig'* 〈 我 并 不 奢望 你 现在 就 能 明白 这 条 命令 
一 一 我 只 希望 你 能 注意 到 这 条 命令 有 多 简洁 。) 

我 喜欢 Perl， 但 现在 讨论 的 主题 不 是 Perl。 请 记 住 ， 本 章 的 重点 是 正则 表达 式 。 这 有 点 儿 像 计算 机 系 的 
教授 在 第 一 学 年 的 谍 堂 上 说 的 “你 们 将 会 在 这 里 学 习 计 算 机 科学 知识 ， 但 我 们 选择 用 Pascal 语 言 作为 学 习 的 
Cle 

因为 本 划 并 不 假设 读者 已 经 懂得 Perl， 所 以 我 会 做 些 必要 的 讲解 ， 让 你 明日 这 些 例子 (第 7 章 讲 解 Perl 
的 本 质 的 细节 ， 它 假设 读者 懂得 一 些 基 本 的 知识 ) 。 即 使 你 曾经 用 过 好 几 门 语言 ，Perl 也 可 能 让 你 觉得 奇 
怪 ， 因 为 它 的 语法 极 精炼 ， 语 意 又 极 丰富 。 为 了 让 这 些 例子 更 清楚 ， 我 不 会 使 用 Perl 提供 的 这 些 特性 ， 而 
是 用 一 种 更 普通 的 近乎 仿 码 的 风格 来 展示 这 些 程序 。 虽 然 算 不 上 “各 脚 ”， 但 这 些 例子 也 不 符合 Perl 的 编程 风 
格 。 不 过 ， 我 们 将 通过 它们 认识 到 正则 表达 式 的 重要 作用 。 


Perl jj AT] 














A Short Introduction to Perl 

Perl 是 一 门 功能 强大 的 脚本 语言 ， 诞 生 于 20 世 纪 80 年 代 末 期 ， 其 思想 主要 来 自 其 他 的 编程 语言 和 工 
具 。Perl 关 于 文本 处 理 和 正则 表达 式 的 许多 概念 来 自 两 种 专业 化 的 语言 awk 和 sed， 它 们 都 非常 不 同 于 “ 传 
统 ” 的 语言 ， 例 如 C 和 Pascal。 

Perl 可 以 应 用 于 许多 平台 ， 包 括 DOS/Windows. MacOS, OS/2. VMS 和 Unix。 它 的 文本 处 理 能 力 极 
其 强大 ， 是 关于 Web 的 处 理 中 最 常 使 用 的 工具 。 如 果 要 获得 对 应 你 的 机 器 版 本 的 Perl， 请 参考 
www.perl.com. 

本 书 是 为 Perl 的 5.8 厂 而 写 的 ， 不 过 本 章 的 例子 可 以 在 5.005 以 后 的 版 本 上 使 用 。 

现在 来 看 一 个 人 简单 的 例子 : 

Scelsius = 30; 
Sfahrenheit = (Scelsius * 9 / 5) + 32; # 计算 华氏 温度 
print “Scelsius C is $fahrenheit F.\n”; # 返回 摄氏 和 华氏 温度 

PUT IX ERE, Sa ze: 

30 C is 86 F. 

$fahrenheit#l$celsius-Z KM FF 1 Ae et ASHA, AY DRE PS CB Se EIR ESC AS EA HA 
ROME T ŽUB) > MAT BREE. 

如 果 你 曾经 使 用 过 C、C# 或 者 Java、VB.NET， 你 可 能 无 法 理解 在 Perl 中 变量 居然 能 够 出 现在 双 引 号 包 
有 的 字符 串 中 。 在 字符 串 “$celsius C is $fahrenheit F.\n”* 中 ， 每 个 变量 都 会 被 它 的 实际 值 所 取代 。 在 本 例 
中 ， 结 果 就 是 打印 出 来 的 字符 串 (\n 代 表 换 行 )。 

Perl 也 提供 了 跟 其 他 流行 的 语言 类 似 的 控制 结 
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Scelsius = 20; 
while (Scelsius <= 45) 
{ 


Sfahrenheit = (Scelsius * 9 / 5) + 32; # HH#AR BE 
print “S$celsius © is $fahrenheit F.\n”; 
Scelsius = Scelsius + 5; 


} 


在 条 件 为 真 ( 即 $celsius <=45) 时 ，while 循 环 控制 的 部 分 会 重复 执行 。 把 这 段 代码 写 入 到 一 个 程序 
中 ， 例 如 temps， 我 们 可 以 直接 从 命令 行 运 行 它 。 
下 面 是 运行 的 结果 : 
6 perl -w temps 
20 C as 66 F, 


25 C as 77 EF, 
20 C as Ge F, 
39 Cas SS F, 
40 C is 104 F. 
ao G ee ole Fa 


-w 参 数 并 不 是 运行 所 必须 的 ， 与 正则 表达 ATE ELE HER S. pid Perl, 仔细 检查 我 们 的 程 
序 ， 在 Perl 认为 可 疑 的 地 方 发 出 警报 (例如 没有 初始 需要 事先 声明 就 
能 使 用 ) 。 在 这 里 加 上 这 个 参数 ， 只 是 因为 它 是 一 种 良好 的 习惯 

好 了 ， 这 束 是 Perl 的 简章 入门。 下 面 我 们 来 看 在 Perl 中 如 何 使 用 正则 表达 式 。 
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使 用 正则 表 这 却 匹 配 文本 


Matching Text with Regular Expressions 
Perl 可 以 以 多 种 方式 使 用 正则 表达 式 ， 最 简单 的 就 是 检查 变量 中 的 文本 能 人 耕 由 茶 个 正则 表达 式 匹 配 。 
下 面 的 代码 检查 $reply 中 所 仿 的 字符 果 ， 报 告 这 个 字符 串 是 人 否 全 部 由 数字 构成 : 
if (Sreply =~ m/*[0-9]+$/) { 
print “oniy digits mn"? 
} else { 
print “not only digits \n"”; 





} 

第 一 行 的 代码 也 许 有 些 奇怪 : 正则 表达 式 是 '^[0-9]+$ |， ， 两 边 的 my/.../ 告 诉 Perl 该 对 这 个 正则 表达 式 
进行 什么 操作 。m 代 表演 试 进行 “正则 表达 式 匹 配 (regular expression match) ”， 和 斜 线 用 来 标记 界限 “〈 注 
2) 。 之 前 的 = 一 用 来 连接 m/.../ 和 和 欲 搜索 的 字符 串 ， 即 本 例 中 的 $reply。 

请 不 要 混 消 = 一 、= 和 ==。 运 算 符 == 用 来 测试 两 个 数字 是 含 相 等 《我 们 将 会 看 到 ， 运 算 符 ”ed 用 来 汕 试 
两 个 字符 串 是 否 相 等 ) 。 运 算 符 = 用 来 给 变量 赋值 ， 例 如 $Celsius=20。 最 后 ，= 一 用 来 连接 正则 表达 式 和 行 
搜索 的 目标 字符 串 。 在 这 个 例子 中 ， 要 搜索 的 正则 表达 陈 是 mA[0-9]+$/， 而 目标 字符 串 是 $reply。 此 程序 在 
其 他 语言 中 的 思路 有 所 不 同 ， 我 们 会 在 下 一 章 看 到 例子 。 

把 = 一 读 作 “匹配 (matches) ”可 能 比较 省 事 ， 所 以 

if ($reply=~m/^[0-9]+$/ 

读 作 : 

“如 果 变 量 $reply 所 含 的 文本 能 够 匹配 正则 表达 式 A[0-9]+$| , ABA...” 

如 果 “人 [0-9]+$| 能 够 匹配 $reply 的 内 容 ，$reply= 一 mA[0-9]+$/ 的 返回 值 就 为 tue， 和 否则 为 false。 让 语句 
使 用 true/false 值 来 决定 输出 什么 信息 。 

请 注意 ， 如 果 $reply 中 包含 任意 的 数字 字符 ，$reply= 一 my/[0-9]+/〈 相 比 之 前 的 表达 式 ， 去 掉 了 开头 的 
脱 字符 和 结尾 的 美元 符 ) 的 返回 值 就 是 true。 两 端的 ^...$| 保证 整个 $reply 只 包含 数字 。 

现在 把 上 和 面 两 个 例子 结合 起 来 。 首 先 提示 用 户 输 入 一 个 值 ， 接 收 这 个 输入 ， 用 一 个 正则 表达 式 来 验 
证 ， 确 傈 输入 的 是 一 个 数值 。 如 采 是 ， 我 们 吏 计 算 相 应 的 华氏 多 度 ， 人 否则 ， 我 们 输出 一 条 报警 信息 : 


print “Enter a temperature in Celsius:\n”; 
Scelsius = <STDIN>; # 从 用 户 处 接受 一 个 输入 
chomp ($celsius) ; # 去 掉 Scelsius 后 面 的 换行 符 








if ( $celsius =~ m/*[0-9]+S/) { 
Sfahrenheit = ($celsius * 9 / 5) + 32; #77 EREZA 
print. ‘Scelsius C is Sfahrenheit Fyn”; 
} else { 
print “Expecting a number, so I don't understand \”Scelsius\”.\n”; 


} 


请 注意 最 后 的 print 语 句 有 两 个 转 义 的 双 引 号 ， 它 们 的 作用 并 不 是 标记 引用 字符 串 的 边界 。 对 大 多 数 语 
言 的 文字 字符 串 〈jiteral string) 来 说 ， 有 时 候 需 要 转 义 某 些 字符 ， 做 法 跟 正 则 表达 式 中 元 字符 的 转 义 很 相 
似 。 在 Perl 中 ， 字 符 串 与 正则 表达 式 的 区 别 并 非 很 重要 ， 但 是 在 Java、Python 等 语言 中 却 极为 重要 。 “一 点 
题 外 话 一 一 数量 丰富 的 元 字符 ”这 一 节 (二 44) 更 详细 地 讨论 了 这 个 问题 (VB.NET 是 个 明显 的 例外 ， 在 那 
Bee SOM SIS Orr mm NEV) 。 

如 果 我 们 把 这 段 程 序 保存 为 c2f， 则 运行 结果 如 下 : 





[| 日 Linux[| [|] www.linuxidc.com |] [] 


% perl -w c2f 
Enter a temperature in Celsius: 
22 
22 C is 71.599999999999994316 F 
哎呀 ， 看 来 〈 至 少 在 某 些 系统 上 ) ，Perl 的 简单 的 print 并 不 能 很 好 地 处 理 浮 点 数 。 
我 不 想 在 本 章 中 讨论 Perl 的 细节 ， 但 是 我 告诉 你 用 printf (“格式 化 输出 〈print formatted) ”) 可 以 解决 
这 个 问题 : 
printf "%.2f C is%.2f F\n",$celsius,$fahrenheit; 
这 里 的 printf 类 似 C 语 言 中 的 printf， 或 者 Pascal、Tcl、elisp 和 Python 中 的 format。 它 不 会 更 改变 量 的 值 ， 
而 只 是 改变 显示 的 方式 。 现 在 的 结果 好 看 多 了 : 
Enter a temperature in Celsius: 
22 
22.00 € I5 71,60 E 


问 更 实用 的 程序 前 进 

Toward a More Real-World Example 

让 我 们 扩展 这 个 例子 ， 容 许 输入 负数 和 可 能 出 现 的 小 数 部 分 。 这 个 问题 的 计算 部 分 没 问 题 一 一 Perl 通 
币 情 况 下 不 区 分 整数 和 浮 点 数 。 不 过 我 们 需要 修改 正则 表达 式 ， 容 许 输 入 负数 和 浮 点 数 。 我 们 添加 一 个 
-? | 来 容许 最 前 面 的 负数 符号 。 实 际 上 ， 我 们 可 以 用 [+]? | 来 处 理 开头 的 正 负 号 。 

要 容许 可 能 出 现 的 小 数 部 分 ， 我 们 添加 1 OV.[0-9]x* ) ? ，。 转 义 的 点 号 匹配 小 数 点 ， 所 以 0-91% | 
用 来 匹配 小 数 点 和 后 面 可 能 出 现 的 数字 。 因 为 \[0-9]* | 被 ”(...) ? | 所 包围 ， 整 个 子 表达 式 都 不 是 匹 
a. * 











[ oP 
配 成 果 所 必须 的 〈 请 注意 ， 它 与 l 是 截然 不 同 的 ， 对 后 一 个 表达 式 中 ， 即 使 人 | 无 法 匹配 ， 
[0-9]x | 也 能 够 匹配 接 下 来 的 数字 ) 。 
把 这 些 综合 起 来 ， 就 得 到 这 样 的 条 件 判断 语句 : 


if (Scelsius =~ m/*[-+]?[0-9]+(\.[0-9]%*) 2S/) { 
TS Ri 
它 能 够 匹配 32、-3.723、+98.6 这 样 的 文字 。 不 过 还 不 够 完善 : 它 不 能 匹配 以 小 数 点 开头 的 数 〈 例 
如 .357) 。 当 然 ， 用 户 可 以 添加 一 个 整数 位 0 来 匹配 (例如 0.357) ， 所 以 我 认为 这 并 不 是 一 个 严重 的 问 
题 。 这 个 浮 点 数 问 题 处 理 起 来 得 靠 些 诀 罕 ， 我 们 会 在 第 5 章 详 细 讲 解 C194) 。 


成 功 匹 配 的 副作用 





Side Effects of a Successful Match 

我 们 再 进一步 ， 让 这 个 表达 式 能 够 匹配 摄氏 和 华氏 温度 。 我 们 让 用 户 在 温度 的 末尾 加 上 C 或 者 F 来 表 
示 。 我 们 可 以 在 正则 表达 式 的 末尾 加 上 [CF] 来 匹配 用 户 的 输入 ， 但 还 需要 修改 程序 的 其 他 部 分 ， 以 便 识 
别 用 户 输 入 的 温度 类 型 ， 并 进行 相应 的 转换 。 

在 第 1 章 ， 我 们 看 到 过 某 些 版 本 的 egrep 支 持 作 为 元 字符 的 1 、 \2| A3 ， 用 来 保存 前 面 的 括号 
内 的 子 表达 式 实际 匹 配 的 文本 (号 21) 。Perl 和 其 他 许多 文 持 正则 表达 式 的 语言 都 文 持 这 些 功能 ， 而 且 匹 
配 成 功 之 后 ， 在 正则 表达 式 之 外 的 代码 仍然 能 够 引用 这 些 匹 配 的 文本 。 

我 们 会 在 下 一 章 看 到 各 种 语言 是 如 何 做 a 到 这 一 点 的 〈( 写 137) ， 但 是 Perl 的 办 法 是 通过 变量 
$1、$2、$3 等 等 ， 它 们 指 回 第 一 组 、 第 二 组 、 第 三 组 括号 内 的 子 表达 式 实 际 匹配 的 文本 。 这 未 免 有 点 奇 
怪 ， 它 们 都 是 变量 ， 而 变量 名 则 是 数字 。 正 则 表达 式 匹 配 成 功 一 次 ，Perl 殴 会 设置 一 次 。 

总 结 一 下 ， 在 尝试 匹配 时 ， 正 则 表达 式 中 的 元 字符 \L| 指向 之 前 匹配 的 某 些 文本 ， 匹 配 成 功 之 后 ， 在 
接 下 来 的 程序 中 用 $1 来 引用 同样 的 文本 。 

AT RECIFE, SPLINT, BEER Sux ideiok] 0 





Scelsius =~ m/*[-+]?[0-9]4 [CF] (CF ley 


Scelsius =~ m/*([- +73 [0-9] iy Cer [CF] Lay 
WMR Ss Ae STEMI IASUIN ES MS? 为 了 回答 这 个 问题 ， 我 们 需要 知道 ， 这 些 插 与 是 否 改 变星 
号 或 者 其 他 量词 的 作用 对 象 ， 或 是 || 的 意义 。 答 案 是 ， 都 没有 改变 ， 所 以 这 个 表达 式 仍然 能 够 匹配 相同 
的 文本 。 不 过 ， 他 们 确实 围 住 了 我 们 期 望 轧 配 字 符 串 中 “有 价值 ”文本 的 子 表达 式 。 如 图 2-1 所 示 ，$1 保 存 那 
些 数字 ， 而 $2 你 存 C 或 者 F。 下 一 页 的 图 2-2 是 程序 的 流程 图 ， 我 们 发 现 ， 这 个 图 让 我 们 很 容 多 地 决定 匹配 
之 后 应 该 干什么 。 








第 二 个 括号 


整个 正则 表达 式 Jae 


$celsius =~ m/*([-+]?[0-9]+) ([CF])$/ 


RTS! 保存 于 $2 
第 一 个 括号 


闭 括 号 





图 2-1: 捕获 型 括号 
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示例 2-1: 温度 转换 程序 


print “Enter a temperature (e.g., 32F, 100C):\n”; 
$input = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp (Sinput) ; # 去 掉 文 本 末尾 的 换行 符 


到 

{ 
# 如 果 程 序 运行 到 此 ， 则 已 经 匹配 。$1 保存 数字 ，$2 保存 “C7 或 者 “FE7 
SInputNum = $1; # 把 数据 保存 到 已 命名 变量 中 .. 
$type $2; #.… 保 证 程序 清晰 易 懂 


| 


if ($type eq “C”) { # "ed 测试 两 个 字符 串 是 否 相 等 
# 输入 为 摄氏 温度 ， 则 计算 华氏 温度 
Scelsius = $SInputNum; 
Sfahrenheit = (Scelsius * 9 / 5) + 32; 
} else { 
# 如 果 不 是 “C" ， 则 必然 是 “FE"， 计 算 摄 氏 温度 
Sfahrenheit = SInputNum; 
Scelsius = ($fahrenheit = 32) * 5 / 9; 
} 
# 现 在 得 到 了 两 个 温度 值 ， 显 示 结 果 : 
printf “3.42f C is %.2f Fin”, Scelsius, #tahrenheit; 
} else { 
# 如 果 最 开始 的 正则 表达 式 无 法 匹配 ， 报 车 
print “Expecting a number followed by \"C\” or \"F\",\n"; 
print “so I don't ufiderstand \"sinput\”. \n"; 


如 果 上 一 页 的 程序 名 叫 convert， 我 们 可 以 这 样 使 用 : 


% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39F 

3.609 © 18 32.00 E 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39C 

39.00 C a6 102.20 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
oops 

Expecting a number followed by “C” or “E”; 
sO I don't understand “cops”. 
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Intertwined Regular Expressions 
在 Perl 之 类 的 高 级 语言 中 ， 正 则 表达 式 的 使 用 与 其 他 程序 的 逻辑 是 混合 在 一 起 的 。 为 了 说 明 这 一 点 ， 
BUNT MEEPS ACHE: (BCC PERE Ae Bec AC | esp rea | df he Waal isa orice a oe i | 


空格 。 这 三 点 全 都 完成 之 后 ， 程 序 束 能 够 接收 ‘98.6-f? 的 输入 。 
我 们 已 经 知道 ， 添 加 | (\[0-9]x ) ? ) 就 能 够 处 理 浮 点 数 : 
if ($input =~ m/^([-+]?[0-9]+(\.[0-9]*)?)( ) 5 ) 
请 注意 ， 它 添加 在 第 一 个 括号 内 部 ， 因 为 我 们 用 第 一 组 括号 内 的 子 表达 式 来 捕获 温度 的 值 ， 我 们 当然 
布 望 它 能 够 包含 小 数 部 分 。 不 过 ， 增 加 了 这 组 括号 之 后 ， 即 使 它 只 是 用 来 分 组 问号 限定 的 对 象 ， 也 会 影响 


到 引用 捕获 文本 的 变量 。 因 为 这 组 括号 的 开 插 号 在 整个 表达 式 中 排 在 第 二 位 《从 左 同 右 数 ) ， 所 以 它 匹 配 
的 文本 存 入 $2 〈 见 图 2-3) 。 


保存 于 $1 
保存 于 $2 保存 于 $3 


DETE FEE 


$input =~ m/^([-+]?[0-9]+(\.[0-9]*)?) ([CF])$/ 


第 1 个 开拓 号 第 2 个 开 括号 第 3 个 开 括号 





图 2-3: REMS 
图 2-3 说 明了 括号 的 散 套 关系 。 在 1[CF] | 之 前 添加 一 组 括号 并 不 会 耻 接 影响 至 个 正则 表达 式 的 意义 ， 
但 是 会 产生 间接 的 影响 ， 因 为 现在 [CF] 所 在 的 括号 排 在 第 3 位 。 这 也 意味 着 我 们 需要 把 $type 的 赋值 从 
$2 改 为 $3《〈 如 采 不 和 希望 这 么 做 ， 可 以 参考 下 一 页 的 补 序 内 容 ) 。 
接 下 来 ， 我 们 要 处 理 数 字 和 字母 之 间 可 能 出 现 的 空格 。 我 们 知道 ， 正 则 表达 式 中 的 空格 字符 正好 对 应 
匹配 文本 中 的 空格 字符 ， 所 以 .类 | 能 够 匹配 任意 数目 的 空格 (但 并 不 是 必须 出 现 空格 〉: 





LE {Sinpet =- m/e” ( [=F] ?0=9] +¢\. [O=91*) Fy i CET 3 87) 
但 这 样 还 不 够 灵活 ， 而 我 们 希望 的 是 开发 一 个 能 够 实际 应 用 的 程序 ， 所 以 必须 容许 其 他 的 空白 字符 
(whitespace) 。 例 如 常见 的 制 表 符 Cabs) . LE ES x ， 并 不 能 匹配 空格 ， 所 以 我 们 需要 一 个 字符 组 来 
匹配 两 者 [『 轿 ] > Je 


请 把 上 面 这 个 子 表达 式 与 Ce 图 x )， 进行 对 比 ， 你 能 发 现 这 其 中 的 巨大 差异 吗 ? am 请 翻 到 下 一 
查看 答案 

本 书 中 空格 字符 和 制 表 符 都 很 常见 ， 因 为 我 使 用 -和 四 来 表示 它们 。 不 幸 的 是 ， 在 屏幕 上 却 不 是 如 
Ie. WM BIE ， 在 没有 实际 测试 过 以 前 ， 只 能 猜测 这 是 空格 符 还 是 制 表 符 。 为 了 方便 使 用 ，Penl 提 供 
了 IN 这 个 元 字符 。 它 能 够 匹配 制 表 符 _ 相 比 真正 的 制 表 符 ， 它 的 好 处 就 在 于 看 得 更 清楚 ， 所 以 我 会 在 
正则 表达 式 中 采用 这 个 元 字符 。 于 是 [: 图 ]x | 变 成 TA]. 

Perl 还 提供 了 一 些 简便 的 元 字符 ,例如 ni (表示 换行 符 ) ，1Yf| ASCII 的 进 纸 符 formfeed) ， 和 
Nb) 〈 退 格 符 ) 。 不 过 ， 确 切 地 说 ， fb) 在 某 些 情况 下 是 退 格 符 ， 有 些 情况 下 又 表示 单词 分 界 符 。 它 怎 
么 能 身 兼 数 职 呢 ? 下 一 节 我 们 会 看 到 

一 点 题 外 话 一 数量 丰富 的 元 字符 
在 前 面 的 例子 里 我 们 见 到 了 wm， 但 是 wm 都 出 现在 字符 串 而 不 是 正则 表达 式 中 。 就 像 多 数 语 言 一 样 ，Perl 


的 字符 串 也 有 自己 的 元 字符 ， 它 们 完全 不 同 于 正则 符 。 新 下 nn 
概念 VB.NET 是 个 例外 ， a E aa Lge 0 








中 对 应 的 元 字符 一 模 一 样 。 你 可 以 在 字符 串 中 用 \t 加 入 制 表 符 ， 也 可 以 在 正则 表达 式 中 用 元 字符 t) 来 匹 
配制 表 符 。 


非 捕获 型 括号 (?:…) ， 


在 图 2-3 中 , 我 们 用 括号 包围 ( 八 .[0-9]x)?1 来 正确 分 组 , 所 以 我 们 能 够 用 一 个 问号 正 
确 地 作用 于 整个 \.[0-9]*j， 把 它们 作为 可 选项 部 分 。 这 样 的 副作用 就 是 这 个 括号 内 
的 子 表达 式 捕 获 的 文本 保存 到 $2 中 ， 而 我 们 并 不 会 使 用 S2。 如 果 有 这 样 一 种 插 号 ， 它 
只 能 用 于 分 组 ， 而 不 会 影响 文本 的 捕获 和 变量 的 保存 ， 问 题 就 好 办 多 了 。 
Perl 以 及 近期 出 现 的 其 他 正则 表达 式 流 派 提供 了 这 个 功能 。(…))1 用 来 分 组 和 捕获 ， 而 
(23:…)1 表 示 只 分 组 不 捕获 。 使 用 这 个 表示 法 ,“ 开 括号 ”是 3 个 字母 构成 的 序列 (?:， 
这 看 起 来 很 古怪 。 这 里 的 “?” 和 表示 “可 选项 ”的 ?元 字符 没有 任何 联系 (可 以 翻 
到 第 90 页 了 解 这 个 十 怪 的 表示 法 的 来 历 ) 。 
所 以 ， 整 个 表达 式 变 成 : 

if ($input =~ m/*([-+]?[0-9]+ (?:\.[0-9]*)?) ([CF])$/) 
现在 ， 即 使 [CEF]1 两 端的 括号 的 确 是 排 在 第 三 位 ， 它 匹配 的 文本 也 会 保存 到 $2 F, A 
为 (?:…) | 不 会 影响 捕获 计数 。 
这 样 做 的 好 处 有 两 点 。 第 一 是 避免 了 不 必要 的 捕获 操作 ， 提 高 了 匹配 效率 (我 们 会 在 
第 6 章 详 细 讨 论 效 率 问 题 )。 另 一 个 好 处 是 ， 总 的 来 说 , 根据 情况 选择 合适 的 括号 能 够 
让 程序 更 清晰 ， 看 代码 的 人 不 会 被 括号 的 具体 细节 所 困扰 ， 
另 一 方面 ，(?:…) | 表示 法 确实 不 够 美观 , 或 者 说 它 会 增加 整个 表达 式 的 阅读 难度 。 它 
带 来 的 好 处 能 够 抵消 这 些 问 题 吗 ? 我 个 人 喜欢 根据 需要 选择 合适 的 括号 ,但 是 在 本 例 
中 ， 或 许 不 值得 这 样 麻 烦 。 如 果 匹 配 只 需要 进行 一 次 (而 不 需要 在 循环 中 多 次 匹配 )， 
效率 并 不 重要 。 
在 本 章 中 , 我 全 部 采用 CO 即使 不 需要 捕获 文本 时 也 是 如 此 ,因为 这 样 看 起 来 更 清 
Ke. 


这 种 相似 性 无 疑 方 便 了 使 用 ， 但 是 我 必须 踢 调 区 分 这 两 种 元 字符 的 重要 性 。 对 于 \t 文 样 简单 的 情况 来 
说 或 许 并 不 重要 ， 但 对 于 我 们 将 要 看 到 的 各 种 不 同 的 语言 和 工具 来 说 ， 知 道 在 什么 情况 下 应 该 使 用 什么 元 
字符 是 极其 重要 的 。 
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测验 丛生 


wo 44 页 问题 的 答案 

| [ofl] +) 和 (**| 网 *) | 的 异同 

CR RH oy KT * 的 匹配 ， 它 能 够 匹配 若干 空格 符 (也 可 以 没有 ) 以 及 若干 
制 表 符 (也 可 以 没有 ) ， 不 过 并 不 容许 制 表 符 和 空格 符 的 混合 体 。 

相反 ，[' 园 ] *1 能 够 匹配 任意 多 个 A, PSA SE e, 它 可 以 匹配 3 次 ,第 一 次 是 
制 表 符 ， 后 两 次 是 空格 符 。 


Ci) * 是 等 价 的 ， 尽 管 因为 第 4 章 将 会 解释 其 原因 ， 字 符 组 的 
点 








我 们 已 经 见 过 不 同 的 字符 组 之 间 的 冲突 。 在 第 1 革 ， 使 用 egrep 时 ， 我 们 把 正则 表达 式 包 含 在 单 引 号 
中 。 整 个 egrep 命 令 行 写 在 command-shell 提 示 符 ，shell 能 够 认 出 它 自己 的 元 字符 。 例 如 ， 对 shell 来 说 ， 空 格 
从 束 古 一 个 元 字符 ， 它 用 来 分 隅 命令 和 参数 ， 或 者 参数 与 参数 。 在 许多 shell 中 ， 单 引号 是 元 字 从 ， 单 引号 
内 的 字符 串 中 的 字符 不 再 要 被 当 作 元 字符 处 理 〈DOS 使 用 双 引 号 ) 。 

在 shell 中 使 用 引号 容许 我 们 在 正则 表达 式 中 使 用 空格 。 人 否则 ，shell 会 把 空格 认 作 参数 之 间 的 分 隔 符 ， 
而 不 是 把 整个 正则 表达 式 传递 给 egrep。 许 多 shell 能 够 识别 的 元 字符 包括 $、 炎 、? 之 类 一 一 我 们 在 正则 表 
达 式 中 也 会 用 到 这 些 元 字符 。 

目前 ， 所 有 关于 shell 的 元 字符 和 Perl 和 字符 串 的 元 子 从 的 讨论 痢 还 与 正则 表达 式 本 映 没 有 任何 关联 ， 但 它 
们 会 影响 到 现实 环境 中 正则 表达 式 的 使 用 。 随 看 阅读 的 深入 ， 我 们 会 见 到 许多 (有 时 候 还 很 复杂 〉 情况 ， 
我 们 需要 同时 在 不 同 层 级 上 使 用 元 字符 交互 (multiple levels of simultaneously interacting metacharacters) 。 

那么 \b| 的 情况 呢 ?” 这 是 一 个 正则 表达 式 的 问题 ， 在 Perl 的 正则 表达 式 中 ，'\b| 通常 是 匹配 一 个 单词 
分 界 符 的 ， 但 是 在 字符 组 中 ， 它 匹配 一 个 退 格 符 。 单 词 分 界 符 作为 字符 组 的 一 部 分 则 没有 任何 意义 ， 所 以 
Perl 完 全 可 以 用 和 它 来 下 配 其 他 的 字符 。 第 1 章 曾 提醒 我 们 ， 字 符 组 “ 子 语言 "的 规范 人 不同 于 正则 表达 去 主体 ， 
这 条 规则 也 适用 于 Perl (包括 任何 其 他 流派 的 正则 表达 式 〉。 

用 \s 匹 配 所 有 “空白 ” 

讨论 空白 的 问题 时 ， 我 们 最 后 使 用 的 是 A | 。 这 样 做 没 问 题 ， 但 许多 流派 的 正则 表达 式 提供 了 一 
种 方便 的 办 法 : Nso Os; 看 起 来 类 似 ty), Ny 代表 制 表 符 ， 而 \s| 则 能 表示 所 有 表示 “空白 字符 
(whitespace character) ”的 字符 组 ， 其 中 包括 空格 符 、 制 表 符 、 换 行 侍 和 回 和 车 符 。 在 我 们 的 例子 中 ， 换 行 
符 和 回 车 符 并 不 需要 特别 考虑 ， 但 是 \s* | 显然 比 [| 要 简洁 。 而 且 不 久 你 就 会 习惯 这 种 表示 法 ， 在 
复杂 的 表达 式 中 ， Tsx | 更 加 易于 理解 。 

现在 我 们 的 程序 变 成 

pinput =~ m/* ( [+r] 2 [0-9] +(\. [0-9] *) 7) \s* ( [CF] ) S/ 


Boo», PMT AAT RE He ASH SS ON i SRA) SEE. A BAe BRE) SS BES On BF ZA 
中 ， IT[CFcf]| 。 不 过 ， 我 更 愿意 使 用 另 一 种 办 法 : 

$input=~m/A([-+]?[0-9]+(\.[0-9] * )?)\s * ([CF]))$/i 

添加 的 这 个 ji 称 作 “修饰 符 Cmodifier) >， 把 它 放 在 my/.../ 结 构 之 后 ， 告 诉 Perl 进 行 不 区 分 大 小 写 的 匹 
配 。 修 饰 符 其 实 不 是 正则 表达 式 的 一 部 分 ， 而 是 m/.../ 结 构 的 一 部 分 ， 这 个 结构 告诉 Perl 使 用 者 的 意图 (应 
用 一 个 正则 表达 式 ) ， 以 及 采用 的 正则 表达 式 〈 在 和 斜 线 之 则 的 部 分 )。 我 们 曾 看 到 过 这 种 功能 ， 即 egrep 
的 -i 参数 (号 15) 。 , , , 

时 时 刻 刻 说 <i 修 饰 符 〈the i modifier) a Aurela, bnd BMAMHi jE 不 全 aN:[ | 机 














只 是 在 Perl 中 指定 修饰 从 的 办 法 之 一 一 一 在 下 一 革 ， 我 们 会 看 到 其 他 的 办 法 ， 以 及 其 他 语言 实现 此 功能 的 
写 读 。 在 本 和 章 后 面 的 部 分 ， 我 们 还 会 看 到 其 他 的 修饰 符 ， 例 如 /gg (表示 “全 局 匹配 (global match) ”) 以 
及 人 《表示 “宽松 排列 的 表达 式 〈free-form expressions) ”) 。 

现在 ， 我 们 已 经 做 了 不 少 修改 了 ， 来 看 看 新 的 程序 : 


% perl -w convert 
Enter a temperature (e.g., 32F, 100C): 
Sa: £ 
U.00 © 18 32.00 E 
6 perl -w convert 
Enter a temperature (e.g., 32F, 100C): 
50 c 
Loco C 28 50.00 F 
哎呀 ! 你 是 否 注意 到 了 ， 第 二 次 运行 时 我 们 输入 的 是 摄氏 50 度 ， 结 果 被 认 成 了 华氏 50 度 ? 看 看 程序 的 
逻辑 ， 你 找 出 问题 了 吗 ? 
再 来 看 程序 的 片段 : 


二 


Stype = $3; # 把 数据 保存 到 以 命名 的 变量 ， 让 程序 更 易 懂 


if ($type eq “C”) { # 'eq! 测试 两 小 字符 串 是 否 相等 


EEEE E] 


虽然 我 们 的 正则 表达 式 能 够 接受 小 写 的 f{， 程 序 的 其 他 部 分 却 没 有 相应 的 修改 。 在 这 个 程序 里 ， 只 有 
$type 是 ‘C’ 有 的 时 候 ， 才 作为 摄氏 度 处 理 。 因 为 程序 同样 可 以 接受 小 写 的 c， 我 们 需要 修改 $type 的 判断 : 
if ($type eq "C" or $type eq "c") { 
实际 上 ， 因 为 本 书 是 关于 正则 表达 式 的 ， 我 或 许 这 样 做 : 
if ($type=~m/c/i) { 
现在 ， 大 小 写 的 情况 都 能 应 付 了 。 最 终 的 程序 如 下 所 示 。 这 个 例子 告诉 我 们 ， 正 则 表达 式 的 使 用 方 
可 能 会 影 啊 到 程序 的 其 他 部 分 。 
示例 2-2: 温度 转换 程序 一 一 最 终 版 本 


R 


Ne 
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print “Enter a temperature (e.g., 32F, 100C):\n"”; 
Sinput = <STDIN>; # 接收 用 户 输 入 的 一 行文 本 
chomp (Sinput) ; # 去 掉 Sinput 末尾 的 换行 
if (Sinput == m/* ([=t]2?(0=—9)]4(\. (G=9] *) 27) Ya" (LCRI S72) 
{ 
# 如 果 运 行 到 此 ， 则 已 经 匹配 ，$1 保存 数值 ，$3 保存 C 或 者 下 
SInputNum = $1; # 把 数据 保存 到 已 命名 的 变量 


Stype = $3; # .保证 程序 的 可 读 性 

if ($type =~ m/c/i) { fis it “Se” ar T 
# 输 入 的 是 摄氏 温度 ， 计 算 华 氏 温 度 
Scelsius = SInputNum; 
Sfahrenheit = (Scelsius * 9 / 5) + 32; 

} else { 


# 如 果 不 是 “C" ， 则 必定 是 “FE"“， 所 以 计算 摄氏 温度 
Sfahrenheit = $InputNum; 
Scelsius = (S$fahrenheit - 32) * 5 / 9; 
} 
# 现在 两 个 值 都 有 了 ， 输 出 结果 : 
printf .26 C is 4.2£ Fo”, Seelsius, Sfahrenheit; 
} else { 
# 开始 的 表达 式 无 法 匹配 ， 发 出 警报 
print “Expecting a number followed by \”C\” or \”"F\”,\n"; 
print “se I don"t wnderstand. \"Sinpue\”. VW 


暂停 万 刻 


Intermission 

RE AEA AEB) ea ET AB Perl, (Ata BI AE AR TIE IAS AM o 

1. 许 多 工具 都 有 自己 的 正则 表达 式 流 派 。Perl 和 egrep 可 能 属于 同一 个 流派 ， 但 是 Perl 的 正则 表达 式 中 
的 元 字符 更 多 。 许 多 其 他 的 语言 ， 类 似 Java、Python、.NET 和 TCL， 它 们 的 流派 类 似 Perl。 

2.Perl 用 $variable= 一 my/regex/ 来 判断 一 个 正则 表达 陈 是 售 能 匹配 茶 个 字符 串 。m 表 示 “ 匹 配 
(match) ”， 而 斜 线 用 来 标注 正则 表达 式 的 边界 〈 它 们 本 里 不 属于 正则 表达 式 ) 。 整 个 测 话语 句 作 为 一 个 
单元 ， 返 回 true 或 者 false 值 。 

3. 元 字符 具有 特殊 意义 的 字符 的 定义 在 正则 表达 式 中 并 不 是 统一 的 。 之 前 在 关于 shell 和 双 引 
写 引 用 的 字符 串 的 例子 中 我 们 讲 过 ， 元 字符 的 含义 取决 于 具体 的 情况 。 了 解 具体 情况 (shell、 正 则 表达 
式 、 字 符 串 ) ， 其 中 的 元 字符 及 其 作用 ， 对 学 习 和 使 用 Perl、PHP、Java、Tcl、GNU Emacs, awk. Python 
或 其 他 高 级 语言 是 非常 重要 的 《当然 ， 在 正则 表达 式 内 部 ， 字 人 符 组 有 目 己 的 “ 子 语言 ”， 其 中 的 元 字符 是 不 
AA) 。 

4.Perl 和 其 他 流派 的 正则 表达 式 提 供 了 许多 有 用 的 人 简 记 法 〈shorthands) : 
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\t 制 表 符 

\n 换行 符 

\r BAH 

\s 任何 “空白 FR (例如 定格 符 、 制 表 符 、 进 纸 符 等 ) 

\S 除 \sj 之 外 的 任何 字符 

\w '[a-zA-Z0-9], (4 '\wt 中 很 有 用 ， 可 以 用 来 匹配 一 个 单词 ) 
\W 除 \ 由 之 外 的 任何 字符 ， 也 就 是 [*a-zA-20-9], 

\d “[0-9]J， 即 数字 

\D 除 \dj 外 的 任何 字符 ， 即 [^0-9]， 

5.i 修 饰 符 表示 此 测试 不 区 分 大 小 写 。 尽 管 写 法 是 “ii ， 其 实 人 2 只 是 跟 在 表示 结尾 的 冬 线 之 后 。 

6. C2 : ...) | 这 个 麻烦 的 写法 可 以 用 来 分 组 文本 ， 但 并 不 捕获 。 

7. 匹 配 成 功 之 后 ，Perl 可 以 用 $1、$2、$3 之 类 的 变量 来 保存 相对 应 的 〈...) | 括号 内 的 子 表达 式 匹配 
的 文本 。 使 用 这 些 变 量 ， 我 们 能 够 用 正则 表达 式 从 字符 串 中 提取 信息 《其 他 的 语言 所 使 用 的 方式 有 所 不 
同 ， 我 们 会 在 下 一 章 看 到 例子 〉。 

子 表 达 式 的 编号 按照 开 括号 的 出 现 先 后 排序 ， 从 1 开始 。 子 表达 式 可 以 艇 僚 ， 例 如 
| (Washington CDC) ? ) | 。 如 果 只 是 希望 分 组 ， 也 可 以 使 用 '(...)〉 | ， 但 副作用 是 ， 它 们 捕获 的 文 
本 仍然 会 保存 到 特殊 的 变量 中 。 
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使 用 正则 表达 式 修 改 文 本 


Modifying Text with Regular Expressions 

到 现在 ， 我 们 直到 的 例子 都 只 是 从 字符 串 中 “提取 ”信息 。 现 在 我 们 来 看 Perl 和 其 他 许多 语言 提供 的 一 
个 正则 表达 式 特 性 : 444% (substitution, tH PJ LA ARME (search and replace) ”) 。 

我 们 已 经 看 到 ，$var=~~m/regex/ 尝 试用 正则 表达 式 来 匹配 保存 在 变量 中 的 文本 ， 并 返回 表示 能 人 否 罗 配 
的 布尔 值 。 与 之 类似 的 结构 $var= 一 sregex/replacement/ 则 更 进一步 : 如 果 正 则 表达 式 能 够 思 配 $var 中 的 某 
段 文 本 ， 则 将 这 段 匹 配 的 文本 蔡 换 为 replacement。 其 中 regex 与 之 前 my/.../ 的 用 法 一 样 ， 而 replacement《〈 位 于 
第 二 个 和 第 三 个 糙 线 之 间 ) 则 是 作为 双 引 亏 内 的 字符 串 。 这 就 是 说 ， 在 其 中 可 以 使 用 变量 一 一 例如 $1、$2 
一 一 来 引用 之 前 匹配 的 具体 文本 。 

所 以 ， 使 用 $var= 一 s/.../.../ 可 以 改变 $var 中 的 文本 《如 有 果 没 有 找到 匹配 的 文本 ， 也 束 不 会 有 符 换 发 
Æ) 。 例 如 ， 如 果 $var 包 括 Jeff:Friedl， 运 行 : 

$var=~ s/Jeff/Jeffrey/; 

$var 的 值 瓯 变 成 Jeffery-Friedl. WRIT —iK, WEI Jeffreyrey-Friedl. HIE HXP, BFR 
们 需要 添加 表示 单词 分 界 的 元 字符 。 在 第 1 章 我 们 提 到 过 ， 某 些 版 本 的 egrep 支 持 N< 和 N>; 作为 “单词 
起 始 ” 和 “单词 结束 ”的 元 字符 。Penl 提 供 了 统一 的 元 字符 \b| 来 代表 这 两 者 : 

$var=~s/\bJeff\b/Jeffrey/; 

这 里 有 个 小 测验 : aa IARI (将 这 个 修饰 从 放 在 
replacement 之 后 ) 。 那 么 ， 这 个 表达 式 : 

$var=~s/\bJeff\b/Jeff/i; 

的 功能 是 什么 呢 ? 请 翻 到 下 页 奉 看 答案 


例子 : 公函 生成 程序 














Example:Form Letter 
下 和 面 这 个 有 趣 的 例子 展示 了 文本 伏 换 的 用 途 。 设 想 有 一 个 公函 系统 ， 它 包含 很 多 公 录 模板 ， 其 中 有 一 
些 标 记 ， 对 每 一 封 具体 的 公函 来 说 ， 标 记 部 分 的 值 都 有 所 不 ed. 
Dear =FIRST=, 
You have been chosen to win a brand new =TRINKET=! Free! 


Could you use another =TRINKET= in the =FAMILY= household? 
Yes =SUCKER=, I bet you could! Just respond by...... 


对 特定 的 接收 入 ， 变 量 的 值 分 列 为 : 


Sgiven = “Tom”; 
Sfamily = “Cruise”; 
Swunderprize = “100% genuine faux diamond”; 
HES hE Za, LAT UH BAe a)“ Ss A”: 

Sletter =~ s/=FIRST=/Sgiven/g; 

Sletter =~ s/=FAMILY=/Sfamily/g; 

Sletter =~ s/=SUCKER=/Sgiven Sfamily/g; 

Sletter =~ s/=TRINKET=/fabulous Swunderprize/g; 

FLA A BE IEW eA SU Ce A fal Bei, PREZ JSPR EI CA BRE. FT SRA CASES E 
Perl HAAR, Aree TI Rees S| HRE, URE A. QU, 


s/=TRINKET= Se T E: 千 程 序 运行 时 的 值 就 
是 “fabulous$wunderprize”。 如 果 只 需要 生成 一 份 公 if FALLIN a Baw Wwe kmieci L 








征 。 但 是 ， 使 用 变量 蔡 换 能 够 实现 目 动 化 的 操作 ， 例 如 可 以 从 一 个 清单 谈 入 信息 。 

我 们 还 没 介 绍 过 /g" 全 局 替换 ”(global replacement) 的 修饰 符 。 它 告诉 s/.../.../ 在 第 一 次 蔡 换 完成 之 后 
ARCH Re VLA SCAN, BEATS SR. WR ie AEE Le BT i PRA AN, BER IR 
规则 都 对 所 有 行 生效 ， 我 们 残 必须 使 用 /g。 

结 末 是 可 以 预见 的 ， 不 过 相当 有 趣 : 

Dear Tom, 

You have been chosen to win a brand new fabulous 100% genuine faux diamond! 
Free! Could you use another fabulous 100% genuine faux diamond in the Cruise 
household? Yes Tom Cruise, I bet you could! Just respond by..... 


ASB: 修整 股票 价格 


Example:Prettifying a Stock Price 

男 一 个 例子 是 ， 我 在 使 用 Perl 编写 的 股票 价格 软件 时 遇 到 的 问题 。 我 得 到 的 价格 看 起 来 是 这 
样 “9.0500000037272”。 这 里 的 价格 显然 应 该 是 “9.05， 但 是 因为 计算 机 内 部 表示 浮 点 的 原理 ，Perl 有 时 会 以 
没什么 用 的 格式 输出 这 样 的 结果 。 我 们 可 以 像 温 度 转换 例子 中 的 那样 用 printf 来 保证 只 输出 两 位 小 数 ， 但 是 
此 处 并 不 适用 。 当 时 ， 股 价 仍 然 是 以 分 数 的 形式 给 出 的 ， 如 果菜 个 价格 以 8 结尾 ， 则 应 该 输出 3 位 小 数 
(“.125”) ， 而 不 是 两 位 。 


测验 答案 


o 50 页 的 测验 的 答案 

$var =~ s/\bJeff\b/Jeff/i 实现 了 什么 功能 ? 

这 个 问题 可 能 让 你 困惑 。 如 果 前 面 的 正则 表达 式 用 \bJEFF\b| 或 者 \bjeff\bl 或 者 是 
\bjEfF\bj 可 能 看 得 更 清楚 。 因 为 /i 的 存在 ,搜索 “Jeff” 这 个 词 是 不 区 分 大 小 写 的 。 
而 所 有 匹配 的 字符 串 都 会 被 替换 为 “Jeff ， 第 一 个 字母 是 大 写 ， 其 他 为 小 写 (/i 对 
replacement 的 文本 没有 影响 ， 不 过 第 7 章 讨 论 的 菜 些 修饰 符 不 是 如 此 )。 

结果 就 是 ,“jeff” 这 个 单词 ， 无 论 大 小 写 的 情况 如 何 ， 邦 会 被 替换 为 “Jeff 。 





我 把 自己 的 要 求 归 结 为 : 通常 是 保留 小 数 点 后 两 位 数字 ， 如 果 第 三 位 不 为 零 ， 也 需要 保留 ， 去 掉 其 他 


l _ _ 12.3750000000392 . 12:375 . l 37.500. 
Was. Ze 或 者 会 被 修正 为 “12.375”， 而 一 一 一 被 修正 


为 “37.50”。 这 束 是 我 要 的 结 

那么 ， 我 们 该 如 何 做 昵 ?S$price 变 量 包 含 了 需要 修正 字符 串 ， 让 我 们 用 这 个 表达 式 : 

$price=~s/(\.\d\d[1-9]?)\d * /$1/ 

(提示 : 49 页 介绍 了 Nd) 这 个 元 字符 ， 它 用 来 匹配 一 个 数字 字符 。) 

最 开始 的 Dy 匹配 小 数 点 。 接 下 来 的 dd| 匹配 开头 的 两 位 数字 。 [[1-9]? | 匹配 可 能 跟 在 后 面 的 非 
零 数字 。 到 这 里 ， 任 何 匹配 的 文本 都 是 我 们 希望 保留 的 ， 所 以 我 们 用 括号 把 它 保存 到 $1 中 。 然 后 将 $1 放 入 
replacement 字 人 符 串 中 。 如 果 能 够 罗 配 的 文本 就 古 $1， 我 们 就 用 $1 蔡 换 $1 一 一 这 样 做 没什么 意义 。 但 如 果 在 
$1 的 括号 之 外 还 有 能 够 逻 配 的 字符 ， 因 为 它们 没有 出 现在 replacement 字 从 串 中 ， 所 以 会 被 删除 。 也 就 是 
Bi, “被 删除 的 ”文本 是 其 他 多 余 的 数字 ， 也 就 是 正则 表达 式 末 尾 vdx | 匹配 的 字符 。 

请 记 住 这 个 例子 ， 在 第 4 半 我 们 会 学 习 还 配 过 程 背 后 的 重要 原理 ， 那 时 候 还 会 迪 到 这 个 例子 。 研 究 它 
可 以 学 到 非常 有 价值 的 知识 。 
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目 动 的 编辑 操作 


Automated Editing 

写作 本 半 时 ， 我 过 到 了 男 一 个 简单 但 真实 存在 的 例子 。 当 时 我 需要 登录 a 到 太平 洋 对 尾 的 一 台 机 右上 ， 
但 是 网 速 非常 怪 。 按 下 回 千 得 等 一 分 多 钟 才能 见 到 反应 ， 而 我 只 需要 对 茶 个 文件 进行 一 些小 的 改动 ， 运 行 
一 个 香 要 的 程序 。 实 际 上 ， 我 要 做 的 只 是 将 出 现 的 所 有 sysread 改 为 read。 改 动 的 次 数 并 不 多 ， 但 因为 网 络 
太 慢 ， 使 用 全 屏 编 辑 禹 显然 古人 不 可 能 的 。 

下 面 古 我 的 办 法 : 

% perl-p-i-e's/sysread/read/g' file 

这 条 命令 中 的 Per 程序 是 s/sysread/read/g (是 的 ， 这 就 是 一 个 完整 的 Perl 程 序 参数 -e 表示 整个 程序 
enn + Hee FETS HT H top SOE BE TT ET ERMAR, M-TH RA ZR S&S [Bl BIC 

HEM, LERA WMS HARA SRY Bee Mew, WA S$var=~...) ， 因 为 -p 参 数 束 表 
ZN H es SCE A BEAT SCARS DV I BORER TREE, TARA T/g AMAIT, AAT DA PRUETE— 47 CASH AY DA 
进行 多 次 着 换 。 

尽管 在 这 里 我 只 是 对 一 个 文件 进行 操作 ， 但 也 很 容易 在 命令 行 中 列 出 多 个 文件 ， 而 Perl 会 把 蔡 换 命令 
应 用 到 每 个 文件 的 每 一 行文 字 。 这 样 ， 只 需要 一 条 简单 的 命令 ， 我 下 能 够 编辑 大 量 的 文件 。 这 样 简单 的 纺 
和 辑 方式 是 Perl 独 有 的 ， 但 这 个 例子 告诉 我 们 ， 即 使 执行 的 是 简单 的 任务 ， 作 为 脚本 语言 一 部 分 的 正则 表达 
式 的 功能 仍然 非常 强大 。 





处 理 邮件 的 小 工具 


A Small Mail Utility 

来 看 男 一 个 小 工具 的 例子 。 一 个 文件 中 保存 着 E-mail 信息 ， 我 们 需要 生成 一 个 用 于 回复 的 文件 。 在 准 
备 过程 中 ， 我 们 需要 引用 原始 的 信息 ， 这 样 束 能 很 容易 地 把 回复 插入 各 个 部 分 。 在 生成 回复 邮件 的 header 
时 ， 我 们 还 需要 删除 原始 信息 邮件 的 header 中 不 需要 的 行 。 

下 一 页 的 补充 内 容 是 一 个 邮件 文件 的 范本 。header 包含 了 我 们 关心 的 字段 : 日 期 、 主 题 等 一 一 但 也 包 
括 了 我 们 不 关注 的 字段 ， 这 些 字 段 需要 删除 。 如 采 我 们 的 脚本 程序 叫做 mkreply， 而 原始 的 信息 保留 在 
king.in 中 ， 我 们 会 用 下 面 的 命令 来 生成 回复 模板 : 

% perl-w mkreply king.in > king.out 

C-w 它 用 来 打开 Pen 的 额外 警告 功能 ， 罕 38) 
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E-mail Message 汇 本 


From elvis Thu Feb 29 11:15 2007 

Received: from elvis@localhost by tabloid.org (8.11.3) id KA8CMY 
Received: from tabloid.org by gateway.net (8.12.5/2) id N8XBK 
To: jfriedl@regex.info (Jeffrey Friedl) 

From: elvis@tabloid.org (The King) 

Date? Thu, Feb 29 2007 11:15 


Message-Id: <2007022939939.KA8CMY@tabloid.org> 
Subject: Be seein' ya around 

Reply-To: elvis@hh.tabloid.org 

X-Mailer: Madam Zelda's Psychic Orb [version 3.7 PL92] 


Sorry I haven't been around lately. A few years back I checked into 
that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
The Duke says “hi”. 

Elvis 





我 们 希望 程序 的 输出 结果 king.out 包 括 下 面 的 内 容 : 
To: elvis@hh.tabloid.org (The King) 


From: jfriedl@regex.info (Jeffrey Friedl) 
Subject: Re: Be seein’ ya around 


On Thu, Feb 29 2007 11:15 The King wrote: 

|> Sorry I haven't been around lately. A few years back I checked 
|> into that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
|> The Duke says “hi”. 

|> Elvis 


现在 我 们 来 分 机 。 为 了 生成 新 的 header， 我 们 需要 知道 目标 地 址 〈 即 本 例 中 的 elvis@hh.tabloid.org, 
来 自 原始 信息 中 的 Reply-To R) ， 收 件 人 的 姓名 〈The King) ， 我 们 自己 的 地 址 和 姓名 ， 以 及 主题 。 另 
外 ， 为 了 生成 邮件 正文 的 导入 部 分 Cintroductory line) ， 我 们 还 需要 知道 原始 邮件 的 日 期 。 

这 些 工 作 可 以 分 为 下 面 3 步 : 

1. 从 原始 邮件 的 header 中 提取 信息 ; 





2. 生 成 回复 邮件 header; 
3. 打 印 原 始 邮件 信息 ， 行 首 用 '>… 缩 进 。 
这 样 考虑 有 点 超前 了 在 没有 决定 程序 如 何 谈 入 数据 之 前 ， 束 关心 起 如 何 处理 数 据 了 。 驻 和 运 的 是 ， 


Perl 提 供 了 神奇 的 “<>” 操 作 符 。 在 应 用 到 变量 $variable 时 ， 使 用 *$variable=< 之”， 这 个 有 趣 的 结构 能 够 每 
次 读 入 一 行 数据 。 输 入 的 数据 来 自命 令 行 中 Perl 脚 本 之 后 列 出 的 文件 名 【例如 上 面 例子 中 的 king.in)〉。 
请 不 要 混淆 操作 符 过 > 与 Shell 的 重 定 向 符号 “>filename” 或 者 是 Perl 的 大 于 /小 于 号 。Perl 中 的 过 之 相当 
于 其 它 语言 中 的 getline O 函数 。 
输入 数据 之 后 ， 过 > 很 方便 地 返回 未 定义 的 值 〈 作 为 布尔 值 处 理 ) ， 所 以 整个 文件 可 以 这 样 
理 : 
while ($line = <>) { 
Ab HY Sline... 
} 


RUSAK MRINEKEEME ELE IER E AT RTRT DWAR vedi dew Heian FT 


个 衬 行 之 前 的 信息 是 header， 之 后 的 则 是 正文 部 分 。 为 了 只 读 入 header， 我 们 可 以 使 用 下 面 这 段 代 码 。 
# 处 理 header 
while (Sline = <>) { 
if ($line =~ m/*\s*$/) { 
last; # 停止 while MAANMHRH, MuAH 
} 
.. APS! header 43 #... 
} 
.. .处 理 邮 件 内 的 其 他 信息 ... 
我 们 用 AsX$| 来 检查 表示 邮件 header 结 束 的 空 行 。 这 个 正则 表达 式 检查 的 是 ， 当 前 的 文本 行 是 否 有 
一 个 行 开 头 〈《 其 实 每 一 行 都 有 ， 由 有 瞳 字符 匹配 ) ， 然 后 跟 看 任意 数目 的 空白 字符 〈 尽 党 我 们 并 不 期 望 有 任 
何 空 日 字符 ) ， 然 后 字符 串 结 束 〈 注 3) 。 关 键 词 last 会 跳出 while 和 循环， 停止 处 理 header。 
所 以 ， 在 循环 内 部 ， 在 空 行 检 测 之 后 ， 我 们 能 够 按照 目 己 的 想法 来 处 理 header 的 每 一 行 。 在 本 例 中 ， 
我 们 希望 提取 信息 ， 例 如 邮件 的 主题 和 时 间 。 
要 提取 主题 ， 我 们 可 以 使 用 一 个 音 见 的 技巧 : 
if ($line =~ m/*Subject: (.*)/i) { 
Ssubject = $1; 
} 
这 段 代 人 码 和 尝试 匹配 一 个 以 ‘Subject: … 开 头 ， 但 不 区 分 Subject 大 小 写 的 字符 串 。 如 果 能 够 下 配 ， 后 面 的 
区 可 匹配 这 一 行 的 其 他 部 分 。 因 为 EF 在 括号 中 ， 所 以 之 后 我 们 能 用 $1 来 访问 邮件 的 主题 。 在 这 个 例 
子 中 ， 我 们 希望 把 它 保 存 到 变量 $subject 中 。 当 然 ， 如 果 正 则 表达 式 无 法 罗 配 这 个 字符 串 〈( 大 多 数 情 况 下 者 
不 能 ) ， 结 果 就 是 许 语句 返回 结果 为 false，$subject 变 量 没 有 变化 。 


关于 Wes 


.xj 通常 用 来 表示 “一 组 任何 字符 ”(a bunch of anything) ， 因 为 点 号 可 以 匹配 任何 字 
符 (在 某 些 工具 中 ， 不 包括 换行 符 ) ， 而 星 号 表示 可 以 为 任意 数目 ， 但 并 非 必 须 。 .xi 


可 能 很 有 用 。 

不 过 ， 如 果 把 .*| 作 为 整个 正则 表达 式 的 一 部 分 ,而 用 户 又 不 真正 了 解 其 中 的 原理 ， 
就 可 能 陷入 某 些 隐藏 的 “陷阱 ”我 们 已 经 看 到 过 一 个 例子 ($26), FAL 4 章 深 
入 讨论 这 个 话题 的 时 候 见 到 更 多 的 例子 (7164), 





我 们 可 以 用 同样 的 办 法 来 处 理 Date 和 Reply-To 字 上 段 : 
if ($line =~ m/^Date: (.*)/i) { 
Sdate = $1; 
} 
if ($line =~ m/*Reply-To: (.*)/i) { 
Sreply address = $1; 
} 
From: 所 在 的 行 稍 微克 烦 一 点 。 自 完 ， 我 们 二 要 找到 以 ‘From: “开头 的 行 ， 而 不 是 以 'From… 开 头 的 第 
一 行 。 我 们 需要 的 是 : l l 
From:elvis@tabloid.org (The King) [| [| [| [| Linux[ [| www.linuxidc.com [| [| 








它 包含 了 邮件 的 发 送 地 址 ， 发 送 者 的 姓名 在 括号 内 ， 我 们 要 提取 的 是 姓名 〈 译 注 1) 。 

我 们 用 I^From: . OSH | 来 提取 发 送 地 址 。 你 可 能 猜 到 了 ， DNS) 匹配 的 是 所 有 的 非 空白 字符 (= 
49) ， 所 以 \S+) 匹配 第 一 个 空白 之 前 的 文本 (或 者 目标 文本 末尾 之 前 的 所 有 字符 ) 。 在 本 例 中 ， 就 是 好 
件 的 发 送 地 址 。 匹 配 之 后 ， 我 们 希望 匹配 括号 内 的 文字 。 显 然 ， 此 处 也 需要 匹配 括号 本 身 。 我 们 用 八 ( 
和 f\) | 来 匹配 ， 转 义 之 后 的 括号 不 再 具有 特殊 的 含义 。 在 括号 内 ， 我 们 希望 匹配 任何 字符 一 一 除了 括号 
之 外 的 任何 字符 ， 所 以 采用 '[^()]x* | 。 记 住 ， 字 符 组 的 元 字符 不 同 于 正则 表达 式 的 “普通 ”元 字符 ， 在 
字符 组 内 部 ， 括 号 不 再 具有 特殊 含义 ， 因 此 也 不 需要 转 义 。 
综合 起 来 ， 我 们 得 到 : 

[Erom:Gst)NCAO )), 
其 中 的 括号 有 点 多 ， 初 看 起 来 不 太 好 懂 ， 图 2-4 解 释 得 更 清楚 : 





AFrom: (\S+) \(([^()]*)\) 


RAF EIS 保存 到 $2 


图 2-4: 髓 套 的 括 写 ，$1 和 $2 
如 下 图 2-4 的 正则 表达 式 能 够 匹配 ， 我 们 可 以 通过 $2 得 到 发 运 者 的 姓名 ， 从 $1 得 到 可 能 的 回复 地 址 。 
if ($line =~ m/*From: (\s+) \(([*()1*)\)/2) { 
”reply address = $1; 
ofrom name = $2; 
} 


并 非 所 有 的 E-mail 信息 都 包含 Reply-To 字 7 段 ， 所 以 我 们 把 $1 和 暂 定 为 回复 地 址 。 如 果 之 后 出 现 了 $Reply- 
To 字段 ， 我 们 会 重 设 $reply_address。 综 合 起 来 束 得 到 |: 
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while ($line = < >) 


if ($line =~ m/*\s*S/ ) { + 如 果 存 在 空 行 
last; # 就 立即 结束 while fA 


if ($line =~ m/*Subject: (.*)/i) { 
Ssubject = $1; 


if ($line =~ m/*Date: (.*)/i) { 
Sdate = $1; 


if ($line =~ m/*Reply-To: (\st+)/i) i 
»reply address = $1; 


if ($line =~ m/“From: (\st) \(([*()]*)\)/2) 1 
sreply address = $1; 
ofrom name = $2; 
} 
} 
这 上 段 程 序 检查 header 的 每 一 行 ， 如 果菜 个 正则 表达 式 能 够 下 配 ， 则 设置 相应 的 变量 。header 的 许多 行 无 
法 由 这 些 正 则 表达 式 匹 配 ， 所 以 会 被 忽略 。 
while 循 环 结束 之 后 ， 我 们 束 能 够 生成 回复 邮件 的 header 了 〈 注 4) : 
print “To: Sreply address ($from name) \n”; 
print “From: jfriedl\@regex.info (Jeffrey Friedl) \n”; 
print “Subject: Re: Ssubject\n”; 
print “\n” ; # blank line to separate the header from message body. 


请 注意 ， 我 们 在 主题 之 前 加 上 了 Re ， 表 示 这 是 一 封 回复 邮件 。 最 后 ， 在 header 之 后 ， 我 们 列 出 原 
始 邮 件 的 内 容 : 
print "On $date $from_name wrote:\n"; 


对 于 其 他 的 输入 信息 a 《也 就 是 原始 邮件 的 正文 部 分 ) ， 我 们 在 每 一 行 之 前 添加 > ERR: 
while (Sline = < >) { 
print “|> $line”; 
} 
有 意思 的 是 ， 这 段 程序 也 可 以 用 男 一 种 方法 ， 使 用 正则 表达 式 来 加 入 引用 提示 符 


$line =~ s/*/|> /; 


print Sline; 


这 条 替换 命令 寻找 '^” ， 在 每 个 字符 串 的 起 始 位 置 匹配 。 这 条 蔡 换 命 令 把 字符 串 开 头 那个 "不 存在 的 字 
FEE | >, 其 实 并 没有 蔡 换 任何 字符 ， 只 是 在 字符 串 的 开头 加 入 :| 之 在 本 例 中 这 样 做 有 点 小 
的 嫌疑 了 ， 但 是 我 们 将 在 本 音 中 看 到 类 似 (但 更 有 用 〉 的 例子 ， 

真实 世界 的 问题 ， 真 实 世界 的 解法 

既然 探 出 了 一 个 真实 世界 的 例子 ， 就 应 该 指出 这 个 解法 在 真实 世界 中 的 缺 憾 。 我 已 经 说 过 ， 这 些 例子 
的 目的 在 于 展示 正则 表达 式 的 使 用 方法 ， 而 Perl 程序 不 过 是 展示 的 手段 。 我 使 用 的 Perl 程序 并 不 一 定 使 用 
了 最 有 效 或 者 最 好 的 解法 ， 但 是 ， 我 希望 它 能 说 明正 则 表达 式 的 用 法 。 

同样 ， 束 实 世 界 的 邮件 信息 比 这 个 简单 问 是 中 的 邮件 信息 复杂 很 多 。Eroms 这 一 行 就 可 能 有 许多 种 林 
式 ， 而 我 们 的 程序 只 能 处 理 一 种 。 如 果真 正 的 From， 这 一 行 无 法 匹配 我 们 的 模式 ， 则 Sfrom_name 变 量 就 不 
会 设置 ， 使 用 时 保持 在 未 定义 的 状态 〈 也 就 是 “ 没 A AD PANT Ass Ee 
达 式 ， 让 它 能 够 处 理 各 种 不 同 的 邮件 地 址 /姓名 格 EE E nd] L 














模板 之 前 ) ， 我 们 可 以 这 样 : 
SB not defined(Sreply address) 
or not defined($from name) 
or not defined(S$subject) 
or not defined(Sdate) ) 


die “couldn't glean the required information!”; 
} 

Perl 的 defined 函 数 检 碍 一 个 变量 是 否 设 置 了 值 ， 而 die 冰 数 用 来 用 出 错误 信息 ， 退 出 程序 。 

妨 一 点 需 要 考虑 的 是 ， 程 序 假设 From: 这 一 行 出 现在 Reply-To: 之 前 。 如 果 From: 出 现在 之 后 ， 整 
会 履 盖 从 Reply-To 取 得 的 $reply_address。 

“真正 的 2 真实 世界 

发 送 电子 邮件 的 程序 有 许多 类 ， 每 类 程序 对 标准 的 理解 都 不 一 样 ， 所 以 处 理 电子 邮件 并 不 是 件 简单 的 
事情 。 我 曾经 和 想 用 Pascal 程序 来 处 理 电子 邮件 ， 但 我 发 现 ， 如 下 没有 正则 表达 式 ， 处 理 起 来 极其 困难 ， 
难 到 我 决定 先 用 Pascal 写 一 个 类 似 Perl 的 正则 表达 式 包 ， 青 来 做 其 他 事情 。 进 入 没有 正则 表达 式 的 世界 之 后 
才 发 现 ， 目 己 已 经 习惯 正则 表达 式 的 功能 和 便捷 了 ， 而 我 显然 不 硕 望 在 没有 正则 表达 式 的 世界 不 太 信 。 


用 环视 功能 为 数值 添加 运气 








Adding Commas to a Number with Lookaround 

AWB, WARES, BER Dale. REE: 

print "The US population is $pop\n"; 

可 能 输出 “The US population is 298444215”， 但 对 大 多 数 说 英语 的 人 来 说 ，“298，444，215? 看 起 来 更 
加 和 目 然 。 用 正则 表达 式 该 如 何 做 呢 ? 

动脑 子 想 想 这 个 问题 ， 我 们 应 该 从 这 个 数 的 右边 开始 ， 每 次 数 3 MRF RAR AREA, W 
加 入 一 个 召 写 。 如 果 我 们 能 把 这 种 思路 直接 用 到 正则 表达 式 中 当然 很 好 ， 可 惜 正则 表达 式 一 般 部 是 从 左 问 
右 工 作 的 。 不 过 梳理 一 下 思路 束 会 友 现 ， 召 号 应 该 加 在 “左边 有 数字 ， 右 边 数 字 的 个 数 正好 是 3 的 倍数 的 位 
> 
上 问题 。 

环视 结构 不 匹配 任何 字符 ， 只 匹配 文本 中 的 特定 位 置 ， 这 一 点 与 单词 分 界 符 Wb) 、 锚 点 [A 和 1$ 相 
似 。 但 是 ， 环 视 比 它们 更 加 通用 。 

一 种 类 型 的 环视 叫 “ 顺 友 坏 视 (lookahead) ”， 作 为 表达 陈 的 一 部 分 ， 顺 序 环视 顺序 〈 从 左 至 右 ) 但 看 
文本 ， 和 等 试 匹配 子 表达 式 ， 如 果 能 够 匹配 ， 丈 返回 匹配 成 功 信息 。 肯 定型 顺序 环视 (positive lookahread ) 
用 特殊 的 序列 “〈? =.…) | 来 表示 ， 例 如 (? =\d) | ， 它 表示 如 果 当 前 位 置 右边 的 字符 是 数字 则 匹配 成 
功 。 另 一 种 环视 称 为 逆序 环视 ， 它 逆序 (从 右 向 左 ) 查看 文本 。 它 用 特殊 的 序列 [ (? <=...) ) 表示 ， 例 
如 (2 <d) | ， 如 果 当 前 位 置 的 左边 有 一 位 数字 ， 则 匹配 成 功 〈 也 就 是 说 ， 紧 跟 在 数字 后 面 的 位 
置 ) 。 

环视 不 会 “占用 ”字符 

在 理解 顺序 环视 和 其 他 环视 功能 时 需要 特别 注意 一 点 ， 即 在 检查 子 表达 式 能 售 匹 配 的 过 程 中 ， 它 们 本 
身 不 会 “占用 ”任何 文本 。 这 可 能 有 点 难 懂 ， 所 以 我 准备 了 下 面 的 例子 。 正 则 表达 式 Jeffrey | 匹配 : 


Dy Jeffrey Friedl. 
但 同样 的 正则 表达 式 ， 如 果 使 用 顺序 环视 功能 ， 即 "〈? =Jeffrey) | ， 则 匹配 标记 的 位 置 : 
-i Jeffrey Friedl. 
顺序 环视 会 检查 子 表 达 式 能 含 匹 配 ， 但 它 只 寻找 能 够 匹配 的 位 置 ， 而 不 会 真正 < 启用 "这些 字符 。 不 
过 ， 把 顺序 环视 和 真正 匹配 字符 的 部 分 一 例如 [Jeff| 一 结合 起 来 ， 我 们 能 得 到 比 单纯 的 “Jeff| 更 精确 
的 结果 。 结 合 之 后 的 正则 表达 式 是 1 (? siettewy) hdl {iL bieerad eb] oyati K ARRE 

















中 的 “Jeff"。 它 能 够 匹配 : 
„by Jeffrey Friedl. 


在 此 处 它 的 匹配 和 单纯 的 [Jeff | 一 样 ， 但 是 下 面 的 情况 不 会 匹配 : 

...by Thomas Jefferson 

[Jeff | 自己 能 够 匹配 这 一 行 ， 但 是 因为 不 存在 "〈? =Jeffrey) | 能 够 匹配 的 位 置 ， 整 个 表达 式 就 无 法 
匹配 。 现 在 环视 的 好 处 还 看 得 不 是 很 明显 ， 但 是 请 不 用 担心 ， 现 在 我 们 只 需要 天 心 顺序 环视 的 原理 一 一 我 
们 很 快 会 遇 到 能 够 充分 展现 其 价值 的 例子 ，。 

受 此 启发 ， 你 或 许 会 发 现 ' (C? =Jeffrey) Jeff, fl Jeff (? =rey) | 是 等 价 的 (能 够 发 现 这 一 点 的 读 
者 很 了 不 起 ) 。 它 们 都 能 匹配 “Jeffrey” 这 个 单词 中 的 “Jeff”。 

我 们 还 需要 认识 到 ， 它 们 结合 的 顺序 非常 重要 。 Jeff (? =Jeffrey) | 不 会 匹配 上 面 的 任何 一 个 例 
子 ， 而 只 会 轧 配 后 面 紧 跟 有 “Jeffrey” 的 “Jeff”。 

















真正 匹配 的 字符 


"by Jeffrey Friedl" 


ANER 





图 2-5: | (? =Jeffrey) Jeff) 的 匹配 

还 有 一 点 很 重要 ， 即 环视 结构 使 用 特殊 的 表示 法 。 就 像 45 页 介绍 的 非 捕 获 型 括号 ” (? : ...) ”一 样 ， 
它们 使 用 特殊 的 字符 序列 作为 自己 的 “ 开 括号 ”。 这 样 的 * 开 括号 ?序列 有 许多 种 ， 但 它们 都 以 两 个 字 
FE O ”开头 。 问 号 之 后 的 字符 用 来 标志 特殊 的 功能 。 我 们 曾经 看 到 过 “分 组 但 不 捕获 ”的 * O : .…) ”、 
顺序 环视 的 “(? =...) ”， 以 及 逆序 环视 的 * 〈? <=...) ”结构 ， 下 面 还 会 看 到 更 多 。 

再 来 几 个 顺序 环视 的 例子 

我 们 马上 束 要 在 数字 间 插 入 有 逗号 了 ， 不 过 现在 先 多 看 几 个 环视 的 例子 。 首 先 我 们 要 把 所 有 格 “Jeffs” 共 
换 为 “Jeffs”。 不 使 用 环视 也 能 很 容易 做 到 这 一 点 ， 即 sJeffs/Jeffsg 〈 记 住 ，/g ”表示 “全 局 替换 ”， 喇 51) 。 
更 好 的 办 法 是 添加 蛙 词 分 界 从 饮 点 : SAbJeffs\b/Jeff's/g。 

我 们 也 可 以 使 用 更 复杂 的 表达 式 ， 例 如 sAb (Jeff) Cs) \b/$1'$2/g， 但 是 这 样 简单 的 任务 似乎 不 值得 这 
么 麻烦 ， 所 以 我 们 暂时 仍然 使 用 sAbJeffs\b/Jeff's/g。 现 在 来 看 另 一 个 正则 表达 式 

s/\bJeff(?=s\b)/Jeff'/g 

两 者 唯一 的 区 别 在 于 ， 最 后 的 s\b| 现在 位 于 顺序 环视 结构 。 下 一 页 的 图 2-6 说 明了 这 个 正则 表达 式 的 
匹配 情况 。 正 则 表达 式 变 化 之 后 ，replacement 字 符 串 中 的 和 :也 相应 地 被 删 去 了 。 

[Jeff 匹配 之 后 ， 接 下 来 尝试 的 就 是 顺序 环视 。 只 有 当  s\b | 在 此 位 置 能 够 匹配 时 〈 也 就 是 JJeff* 之 后 
紧 跟 一 个 ‘sr 和 一 个 单词 分 界 符 ) 整个 表达 式 才能 匹配 成 功 。 但 是 ， 因 为 sb| 只 是 顺序 环视 子 表达 式 的 一 
部 分 ， 所 以 它 匹 配 的 's’ 不 属于 最 终 的 匹配 文本 。 记 住 ，'Jeff| 确定 匹配 文本 ， 而 顺序 环视 只 是 “选择 ”一 个 
位 置 。 在 此 处 使 用 顺序 环视 的 唯一 好 处 在 于 ， 它 保证 表达 式 不 会 匹配 任意 的 情况 。 或 者 从 男 一 个 角度 来 说 
就 是 ， 它 容许 我 们 在 只 匹配 『Jeff| 之 前 检查 整个 Jeffs| 。 








[| 日 Linux[| [|] www.linuxidc.com |] [] 
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图 2-6: !\bJeff (? =s\b) | 的 匹配 

为 什么 不 在 最 终 匹 配 的 结果 中 包含 顺序 环视 匹配 过 的 文本 呢 ? 通常 ， 这 是 因为 我 们 希望 在 表达 式 的 后 
面部 分 ， 或 者 在 稍 后 应 用 正则 表达 式 时 ， 青 次 检测 这 段 广 本。 过 几 页 ， 当 我 们 真正 开始 解决 在 数值 中 加 入 
有 逗 咏 的 问题 时 ， 残 会 明白 它 的 作用 。 但 是 在 上 面 的 例子 中 ， 使 用 顺序 环视 的 原因 在 于 : 我 们 希望 检查 整个 
Jeffs| ， 因 为 这 是 我 们 希望 加 入 撒 号 的 地 方 ， 但 是 如 果 匹 配 的 只 是 9Jeff' ， 就 能 减 小 replacement 字 符 串 的 长 
上 度 。 因 为 '$ 不 再 是 最 终 匹 配 结果 的 一 部 分 ， 也 残 不 再 是 replacement 的 一 部 分 ， 所 以 我 们 可 以 从 replacement 
字符 串 中 去 抒 它 。 

所 以 ， 尽 管 这 两 种 办 法 所 用 的 正则 表达 式 和 replacement 字 符 串 各 不 相同 ， 它 们 的 结果 却 是 一 样 的 。 现 
在 看 起 来 ， 这 些 应 用 正则 表达 式 的 技巧 都 有 些 花 架子 的 味道 ， 但 是 我 这 么 做 是 有 目的 的 ， 请 继续 往 下 看 。 

比较 上 面 的 两 个 例子 ， 最 后 的 's| 从 “ 主 (main) ”表达 式 中 移 到 了 顺序 环视 部 分 中 。 如 果 我 们 把 开头 
HJ ‘Jeff, 照样 搬 到 道 序 环 视 中 呢 ? 结果 是 C <=\bJeff) (? =s\b) | ， 它 的 意思 是 ， 找 到 这 样 一 个 位 
置 ， 它 紧 接 在 Jeff Zia, E's ZA. RIE we Re te AS To HA, RANAR R: 

s/(2<=\bJeff)(?=s\b)//g 

这 个 表达 陈 很 有 意思 ， 它 实际 上 并 没有 匹配 任何 字符 ， 只 是 匹配 了 我 们 硕 望 插入 撒 号 的 位 置 。 在 这 种 
情况 下 ， 我 们 并 没有 ”“ 特 换 ? 任 何 字 符 ， 而 只 是 插入 了 一 个 撒 吉 。 图 2-7 作 了 说 明 。 在 几 页 以 前 ， 我 们 看 到 过 
这 样 的 蔡 换 ， 使 用 s/M| 二 /在 行 首 加 入 和 | 二 …。 
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图 2-7: | (2 <=\bJeff) (? =sb) | 的 匹配 
如 果 我 们 把 两 个 环视 结构 调换 位 置 ， 这 个 正则 表达 式 的 功能 会 改变 吗 ? 也 就 是 说 ，s (? =b) (? < 
=\bJeff) /Vg 的 结果 如 何 ? 请 翻 到 下 一 页 查看 答案 。 
“Jeffs” Lit a i 表 2-1 总 结 了 我 们 见 过 的 把 Jeffs 蔡 换 为 Jeffs 的 几 种 办 法 。 
表 2-1: 解决 "Jeffs” 问 题 的 几 种 办 法 
中 上 局 Dinux [|] www.linuxidc.com |] [] 


解决 方案 评 价 
Riel, mak, Mm; 解决 此 类 问题 最 容易 想 


s/\bJeffs\b/Jeff's/g 到 的 办 法 ， 未 使 用 环视 ， 正 则 表达 式 “ 占 用 ”整个 
| "Jeffs . 
只 增 复杂 程度 ， 没 有 : | AIK A 整 
e/\b (Jeff) (s)\b/$1" $2/g a 加 村 复杂 程度 及 有 好 处 正则 表达 A 占用 
» Jeffs , 

并 没 ‘sg’ T “Zi 2 ALY 
s/\bJeff (?=s\b) /Jeff' /g TEACH a TREMP IT, Be 
实用 价值 。 

并 没有 “占用 ”任何 文本 ， 同 时 使 用 顺序 环视 和 北 
s/(?<=\bJeff) (?=s\b)/'/g 序 环 视 匹 配 需要 的 位 置 ， 即 搬 号 插入 的 位 置 ， 非 常 

适 于 讲解 环视 ，。 

与 上 一 个 表达 式 完 全 相同 ， 只 是 类 倒 了 两 个 环视 结 
s/(?=s\b) (?<=\bdeff) "79 构 。 因 为 它 并 没有 占用 任何 字符 ， 所 以 变换 顺序 并 

没有 影响 。 





加 到 “在 数值 中 加 入 过 号 ?之 前 ， 我 抑 提 一 个 天 于 这 些 表 达 陈 的 问题 。 如 条 我 希望 找到 不 区 分 大 小 写 
的 “Jeffs”， 在 人 答 换 之 后 仍然 保持 原来 的 大 小 写 ， 便 用 /能 实现 这 个 目标 吗 ? 


测验 答案 


o 63 页 小 测验 的 答案 
s/ (?=s\b) (?<=\bJeff£)/'/g 的 结 采 是 什么 ? 

在 本 例 中 ，(?=s\b)j 和 (?<=\bJeff)1 的 先后 顺序 是 无 关 紧 要 的 。 无 论 是 “ 先 检 查 左 
边 ， 再 检查 右边 ”还 是 相反 ， 关 键 是 ， 在 同一 个 位 置 两 边 的 检测 必须 都 能 成 功 ， 整 个 
匹配 才 算 成 功 , 例如 , ASHE ‘Thoma s*Jeff erson 中 ，(?=s\b)j 和 (?<=\bdeff) | 


部 能 匹配 (在 标记 的 两 个 位 置 ), 但 是 这 两 个 位 置 并 不 重合 ， 所 以 这 两 个 环视 的 结合 体 
不 能 成 功 匹配 。 

“两 者 的 结合 ”(combanation of the two) 虽然 有 些 模 糊 ， 但 用 来 描述 这 个 问题 并 没有 
问题 ， 因 为 在 此 处 它 的 意义 很 明显 。 不 过 ， 有 时 候 ， 正 则 引 学 应 用 表达 和 式 的 万 式 可 能 
并 不 这 么 明显 。 因 为 引 学 的 工作 原理 对 正则 表达 式 的 实际 意义 有 直接 的 影响 ， 详 细 讲 
A LAE, 





提示 : B/D>AAPAIAD IIE WA Bo OBER Sala, AAW. 

a] BES BY... 

OKA HEARS REY y “Jeffs” HN BY Alf Ae Ss WB ZS ESR PR AR AAN EATA i BE I AE UU 
达 却 寻找 到 茶 个 位 置 ， 然 后 插入 文本 。 

我 们 已 经 知道 我 们 希望 插入 过 写 的 位 置 必 须 满 足 “ 左 边 有 数字 ， 右 边 数字 的 个 数 正好 是 ”3 的 倍数 ”"。 第 
二 个 要 求 用 逆序 环视 很 容易 解决 ， 左 边 只 要 有 一 位 蜂 宇 山 能 鲍 满 起 Wi 央 有 数 守 ?的 要 求 nu 这 谢 是 corm 时 | 


=\d) | ° 

现在 来 看 “右边 数字 的 个 数 正好 是 3 的 倍数 "。3 位 数字 当然 可 以 表示 为 dd\d| ， 我 们 可 以 用 C.D 
+) 来 表示 (3 的 ) “若干 倍 ”， 再 添加 一 个 1$| 来 确保 这 些 数字 后 面 不 存在 其 他 字符 (保证 “正好 *) o MO 
Wg! Cddd) +$) 匹配 从 字符 串 末尾 向 前 数 的 3x 位 数字 ， 但 是 加 入 T O =...) | 的 环视 结构 之 后 ， 它 就 


能 匹配 < 右边 数字 的 个 数 正好 是 3 的 倍数 的 位 置 "， 例 如 ”<4 204 和 了 中 的 标记 位 置 。 实 际 上 并 不 是 
所 有 这 些 位 置 都 符合 要 求 我们 不 希望 在 第 一 个 数字 之 前 加 入 逗号 _ 所 以 我 们 添加 [ (? <d) | 来 
限定 匹配 的 位 置 。 

代码 段 如 下 : 











$pop =~ s/(?<=\d) (?=(\d\d\d)+$)/,/g; 
print “The US population is Spop\n’; 

确实 输出 了 我 们 期 望 的 “The US population is 298, 444, 215”. Ait, AMAZE, ‘\d\d\d) 两 边 的 
括 写 是 捕获 型 括号 。 但 是 在 这 里 ， 我 们 只 用 它 来 分 组 ， 把 加 号 作用 于 3 位 数字 ， 上 所 以 不 需要 把 它们 捕获 的 
文本 保存 到 $1 中 。 

我 可 以 使 用 第 45 页 补充 内 容 介绍 的 非 捕获 型 括号 ，[ (? : ...) | ， 得 到 1 (? <d) (P=: 
\d\d\d) +$) | 。 这 样 做 的 好 处 在 于 ， 见 到 这 个 正则 表达 式 的 人 不 会 担心 与 捕获 型 括 写 关联 的 $1 是 否 会 被 用 
到 ; 而 且 它 的 效率 更 高 ， 因 为 引 敬 不 需要 记忆 捕获 的 文本 。 男 一 方面 ， 即 使 是 | 〈.…) | 也 有 点 难以 看 
懂 ， 更 不 用 说 ' C2 ...) | 了 ， 所 以 我 在 这 里 选择 更 清晰 的 表达 方式 。 构 建 正则 表达 式 时 ， 经 常 需要 权衡 这 
两 个 因 系 。 从 我 个 人 来 说 ， 我 愿意 在 适用 的 所 有 地 方 使 用 | (? : ...) | ， 但 是 在 讲解 其 他 知识 时 选择 更 
清晰 的 表达 方式 《也 是 本 书 中 的 常见 情况 〉。 

里 词 分 界 符 和 人 否定 环视 

现在 假设 ， 我 们 希望 把 这 个 插入 巡 写 的 正则 表达 式 应 用 到 很 长 的 字符 串 中 ， 例 如 : 

Stext = “The population of 298444215 is growing”; 





$text =~ s/ (?<=\d) (?=(\d\d\d) +$)/,/9; 
print “Stext\n”; 


很 显然 程序 没有 结果 ， 因 为 '$| 要 求 字 符 串 以 3 的 倍数 位 数字 结尾 。 我 们 不 能 只 去 掉 这 里 的 TS), 
为 这 样 会 从 左边 第 一 位 数字 之 后 ， 右 边 第 三 位 数字 之 前 的 每 一 个 位 置 插入 喜与 一 一 结果 是 “...of 2, 9, 8, 
A, As dy 215] 

可 能 初 看 起 来 这 问题 有 些 琼 手 ， 但 我 们 可 以 用 单词 分 界 符 '\b| RAM S) 。 尽 管 我 们 处 理 的 只 是 数 
字 ，Per 的 “单词 "概念 也 能 够 解决 这 个 问题 。 就 像 Ww) (249) 一 样 ，petl 和 其 他 语言 都 把 数字 、 字 母 和 
下 画 线 当 作 单词 的 一 部 分 。 结 果 ， 单 词 分 界 符 的 意思 就 是 ， 在 此 位 置 的 一 侧 是 单词 (例如 数字 ) ， 另 一 侧 
不 是 (例如 行 的 末尾 ， 或 者 数字 后 面 的 空格 〉。 

这 个 “一 侧 如 此 这 肯 ， 另 一 侧 如 此 那 般 ? 听 起 来 很 耳鸣 ， 对 吗 ? 因为 这 正 是 我 们 在 “Jeffs” 例 子 中 所 做 
的 。 区 列 之 一 在 于 ， 有 一 侧 必 须 使 用 人 否定 的 匹配 。 这 样 看 来 ， 迄 今 为 止 我 们 用 到 的 顺序 环视 和 逆序 环视 应 
该 被 称 作 肯定 顺序 环视 (positive lookahead) MAWA (positive lookbehind) 。 因 为 它们 成 功 的 条 
件 是 子 表达 式 在 这 些 位 置 能 够 思 配 。 表 2-2 告 诉 我 们 ， 正 则 表达 式 还 提供 了 相对 应 的 否定 顺序 环视 和 人 盏 定 
逆序 环视 。 从 名 字 残 能 看 出 ， 它 们 成 功 的 条 件 是 子 表 达 陈 无 法 匹配 。 








[| 日 日 Linux[| || www.linuxide.com [] [] 


测验 答案 


o 第 64 页 的 测验 答案 

在 使 用 / 宇 时 ， 哪 些 办 法 会 保留 原来 文本 的 大 小 写 ? 

为 了 保留 大 小 写 ， 要 么 仅仅 替换 被 占用 的 字符 〈 而 不 是 任何 情况 下 都 桂 入 “Jeff's )， 
要 么 不 占用 任何 字符 。 表 2-1 中 的 第 二 个 表达 式 采 取 了 第 一 种 思路 ， 匹 配 占 用 的 字符 ， 
用 $1 和 $2 把 它们 替换 回来 。 后 两 种 解法 选择 了 “不 占用 任何 字符 ”的 思路 。 因 为 它们 
不 占用 任何 字符 ， 所 以 不 需要 保留 任何 文本 。 

第 一 和 第 三 种 解法 使 用 硬 编码 的 replacement 字符 事 。 如 果 使 用 /， 他 们 不 会 保留 原来 
的 大 小 写 信 息 。 它 们 分 别 把 JEFFS 错误 地 替换 为 Jeff's 和 Jeff's, 





表 2-2: 四 种 类 型 的 环视 


类 型 匹配 成 功 的 条 件 .… 

肯定 逆序 环视 子 表达 式 能 够 匹配 左 侧 文本 
T R FAL FRAN Ee LAC A A 
H CII PAL 子 表 达 式 能 够 匹配 右 侧 文本 
否 足 顺序 环视 子 表达 式 不 能 匹配 右 侧 文本 





所 以 ， 如 果 单 词 分 界 符 的 意思 是 : UE Ww) 而 另 一 侧 不 是 \w| ， 我 们 就 能 用 (3? <! \w) (? 
=\w) | 来 表示 单词 起 始 分 界 符 ,用 ' (? <=\w) (? ! \w) | 表示 单词 结束 分 界 符 。 把 两 者 结合 起 来 ， 
PC? <!\w) (? =\w) | (2? <=\w) (? lw) ) RÆNT bjo FESR, WRB SA 
e ee oe Seen ee a a 

(1134) 。 

对 我 们 的 逗号 插入 问题 来 说 ， 我 们 真正 需要 的 是 〈? ! \d) | 来 标记 3 位 数字 的 起 始 计数 位 置 。 我 们 
用 它 来 取代 nb 或 者 $| ， 得 到 : 

$text =~ S/ (?<=\d) (2=(\d\d\d)+(?!\d))/,/ag; 

这 个 表达 式 在 处 理 类 似 “...tone = of.) 12345Hz” CANIN RRA; PERE E e DLAC ...the 
1970s...” 中 的 年 份 。 实 际 上 ， 我 们 根本 不 希望 这 里 的 正则 表达 式 能 够 匹配 “...in1970...”。 所 以 ， 我 们 必须 知 
道 期 望 用 正则 表达 式 处 理 的 文本 ， 以 及 开发 的 程序 适合 解决 什么 样 的 问题 〈 如 果 数 据 包含 年 份 信息 ， 这 个 
正则 表达 式 可 能 束 不 适合 ) 。 

在 关于 单词 分 界 符 和 不 希望 匹配 的 字符 的 讨论 中 ， 我 们 使 用 了 否定 顺序 环视 ， C2 ! \w) | 或 
[| (? ! \d) | 。 你 可 能 还 记得 第 49 页 出 现 的 表示 "“ 非 数字 ”的 字符 \D| ， 认 为 它 可 以 取代 ' (? ! \d) | 。 
这 并 不 正确 。 记 住 ， \D | 的 意思 是 ,“ 某 个 不 是 数字 的 字符 ”，“ 某 个 字符 ”是 必须 的 ， 只 是 它 不 能 为 数字 。 
如 果 在 搜索 的 文本 中 ， 数 字 之 后 没有 字符 ， \D | 是 无 法 匹配 的 (在 第 12 页 的 补充 内 容 中 我 们 见 到 过 类 似 
的 情况 ) 。 

不 通过 逆序 环视 添加 逗号 

A AL me be i en Se an i ned 
Tae RIES, EOS UE HY Al tind ef Wii ined CO FD 

















Stext =~ s/ (àq) (?=(\d\d\d)+(?!\d)/ $1,/g; 


它 与 之 前 的 表达 式 的 差别 在 于 ， 开 头 的 “di 所 处 的 肯定 逆序 环视 变 成 了 捕获 型 括号 ，replacement 字 符 
串 则 在 逗 写 之 前 加 入 了 相应 的 $1。 

如 果 我 们 连 顺序 环视 也 不 用 呢 ? 我 们 可 以 用 "\b| 取代 C2 ! \d) | ， 但 这 个 消除 逆序 环视 的 技巧 是 
售 对 剩 下 的 顺序 环视 有 效 呢 ? 也 束 是 说 ， 下 面 的 办 法 可 行 吗 ? 

$text=~s/(\d)((\d\d\d)+\b)/$1,$2/g; 

O 请 翻 到 下 页 但 看 答案 。 


Text-to-HTMEL 转换 


Text-to-HTML Conversion 

现在 我 们 写 一 个 把 Text 〈 纯 文本 ) 转换 为 HTML GEXA) 的 小 工具 ， 如 果 要 处 理 所 有 的 情况 ， 程 序 
将 非常 难 写 ， 所 以 现在 我 们 只 写 一 个 用 于 教学 的 小 工具 。 

在 目前 我 们 看 过 的 所 有 例子 中 ， 作 为 正则 表达 陈 应 用 对 象 的 变量 都 只 包 合 一 行文 本 。 对 这 个 例子 来 
说 ， 拒 我 们 需要 转换 的 所 有 文本 放 在 同一 个 字符 串 中 比较 方便 。 在 Perl 中 ， 我 们 可 以 很 容易 地 这 样 做 : 


undef $/; # 进入 "file-slurp”( 文 件 读 取 ) 模式 
Stext = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 


测验 谷 案 


o 67 页 问题 的 答案 
$text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g; 能 够 在 数字 中 添加 到 号 吗 ? 
结果 并 非 我 们 的 期 望 。 得 到 的 是 类 似 “281,421906” 的 字符 事 。 这 是 因为 (\d\d\d)+ 
匹配 的 数字 属于 最 终 匹 配 文本 ， 所 以 不 能 作为 “未 匹配 的 ”部 分 ， 供 /g 的 下 一 次 匹配 
ik KAS FA 
一 次 迭代 完成 时 ， 下 一 次 的 迭代 会 从 上 一 次 匹配 的 终点 开始 尝试 。 我 们 布 望 的 是 ， 在 
插入 去 号 以 后 ， 还 能 够 继续 检查 这 个 数值 ， 以 决定 是 否 需 要 再 插入 逗号 。 但 是 ， 在 这 
个 例子 中 ， 重 新 开始 的 起 点 是 整个 数值 的 末尾 。 使 用 顺序 环视 的 意义 在 于 ， 检 查 某 个 
位 置 ， 但 检查 时 匹配 的 字符 并 不 算 在 (最终)“ 匹 配 的 字符 串 ” 内 ， 
实际 上 ， 这 个 表达 式 仍 然 可 以 用 来 解决 这 个 问题 ， 但 正则 表达 式 必 须 由 稍 主 语言 反复 
调用 ， 例 如 通过 一 个 while 循环 ， 每 次 检查 的 都 是 上 次 修改 后 的 字符 事 。 每 次 替换 操 
作 都 会 添加 一 个 逗号 (对 目标 字符 串 中 的 每 个 数值 都 是 如 此 ， 因 为 /g 的 存在 ) ， 下 面 
是 一 个 例子 : 

while ( Stext =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g ) 4 


# 循环 内 不 用 进行 任何 操作 一 一 我 们 硕 望 的 是 重复 这 个 循环 ， 直 到 匹配 失败 
} 





如 本 我 们 的 样本 文件 包含 3 个 短 行 : 
由 DOUUOObinux [|| www.linuxidc.com [| [] 


This is a sample file. 
It has three lines. 
That's all 


Aes $text A A Wize: 

This is a sample file. It has three lines. that’s áll 

在 茶 些 平台 上 ， 也 可 能 是 : 

This is a sample file. It has three lines.®l That's alll 

这 是 因为 大 多 数 系统 采用 换行 符 作 为 一 行 的 终结 符 ， 而 茶 些 系统 〈 主 要 是 Windows) 使 用 回 车 /换行 的 
结合 体 。 我 们 会 确保 这 个 简单 的 工具 能 应 付 这 两 种 情况 。 

处 理 特殊 字符 

首先 我 们 需要 确保 原始 文本 中 的 和信、 “过 :和 >: 字符 “不 会 出 错 ?， 把 它们 转换 为 对 应 的 HIML 编 码 ， 分 
列 是 ‘&amp”、‘&lt 和‘&gt*。 在 HTML 中 这 些 字 符 有 特殊 的 含义 ， 编 码 不 正确 可 能 会 导致 显示 错误 。 我 称 这 
种 简单 的 转换 为 “为 HIML 而 加 工 〈cooking the text for HTML) ”， 它 的 确 非常 简单 : 

$text =~ s/&/&amp;/g; # 保证 基本 的 HTML... 
$text =~ s/</&lt;/g; # .. FA &, <, and > n 
$text =~ s/>/&gt;/g; # … 转换 后 不 出 错 

请 注意 ， 我 们 使 用 了 /8g 来 对 所 有 的 目标 字符 进行 蔡 换 《如 采 不 用 /g， 束 只 会 殖 换 第 一 次 出 现 的 特殊 字 
IT) 。 首 先 转换 人 是 很 重要 的 ， 因 为 这 三 者 的 replacement 中 都 有 '“&" 字 符 。 

分 隔 段 沙 

接 下 来 我 们 用 HTML tag 中 表示 分 段 的 和 p> 来 标记 段 沙 。 识 别 段 洲 的 窗 单 办 法 就 是 把 空 行 作为 段 洲 之 
间 的 分 隔 。 搜 索 空 行 的 办 法 有 很 多 ， 最 容易 想到 的 是 : 

$text=~s/A$/<p >/g; 

它 可 以 匹配 “ 行 末 尾 紧 随行 开头 的 位 置 "。 确 实 ， 我 们 已 经 在 第 10 页 看 到 ， 在 egrep 之 类 的 工具 中 这 样 行 
得 通 ， 因 为 其 中 锌 检索 的 文本 通常 只 包含 远 辑 上 的 一 行文 本 。 在 Perl 中 也 同样 有 效 ， 对 于 之 前 看 到 过 的 E- 
mail 的 例子 ， 我 们 知道 每 一 个 字符 串 只 包含 一 个 馆 辑 行 。 

但 是 ， 我 已 经 在 第 55 页 的 脚注 中 提 到 过 ， A 和 '$| 通常 匹配 的 不 是 逻辑 行 的 开头 和 结尾 ， 而 是 整个 
的 字符 串 的 开头 和 结束 位 置 〈 注 5) 。 所 以 ， 既 然 目 标 字 从 串 中 有 多 个 好 辑 行 ， 束 十 要 采取 不 同 的 办 法 。 

和 下 好 ， 大 多 数 文 持 正 则 表达 式 的 语言 提供 了 一 个 人 简单 的 办 法 ， 即 “增强 的 行销 点 ”(enhanced line 
anchor) 匹配 模式 ， 在 这 种 模式 下 ， A 和 1$| 会 从 字符 串 模式 切换 到 本 例 中 需要 的 逻辑 行 模式 。 在 Perl 
中 ， 使 用 /mm 修饰 从 来 选择 此 模式 : 

$text=~s/A$/<p >/mg; 

请 注意 这 里 同时 使 用 了 /mm 和 /g 《你 可 以 以 任何 顺序 排列 需要 使 用 的 多 个 修饰 符 ) 。 在 下 一 章 ， 我 们 会 
看 到 其 他 语言 是 如 何 处 理 修 饰 符 的 。 


所 以 ， 如 果 我 们 从 Stext 的 :chapter H Thus.… 开 始 ， 会 得 到 期 望 鸭 .chapter. 一 <p> 


Thus...。 
不 过 ， 如 果 在 “ 空 行 ? 中 包含 空格 符 或 者 其 他 空白 字符 ， 这 么 做 束 行 不 通 。 为 了 处 理 空 白字 符 ， 我 们 使 


[xs ,人 ^[*\t\r]*$) pp a, ab ap cue pe 

用 ew, WEE TR VE Bi EES Fe Se HE PRAT FZ EP ES Hl] ZS 

符 或 者 回 车 符 。 这 两 个 表达 式 与 M 是 完全 不 同 的 ， 因 为 它们 确实 匹配 了 一 些 字符 ， 而 TA$| 只 匹配 
位 置 。 不 过 ， 因 为 在 本 例 中 我 们 不 需要 这 些 空格 符 、 制 表 符 和 回 车 符 ， 匹 配 〈 然 后 用 分 段 tag 来 蔡 换 ) 这 些 
字符 不 会 带 来 任何 问题 。 

[A 大 

如 果 你 还 记得 第 47 页 的 fs， ， 你 可 能 会 想到 “N33”1， 就 像 我 们 在 第 55 页 E-mail 的 例子 中 所 用 的 屠 
样 。 如 果 用 Ms) 取代 [tr] ， 因 为 Ns) 能 够 匹配 换行 符 ， 所 以 整个 表达 式 的 意义 就 不 再 是 “寻找 空 行 及 只 
DETAR, MESTRES, ZAR aAA bR Ekma At] mwn ey} | 




















连续 的 这 样 的 文本 行 ， 一 个 Asx$| 就 能 够 匹配 它们 。 这 样 的 好 处 在 于 ， 只 会 留 下 一 个 <p 之 ， 而 不 是 像 
以 前 那样 有 多 少 空 行 就 留 下 多 少 生 p 之 。 所 以 ， 如 采 $text 有 这 样 的 字符 串 : 
‘with. [rel . Therefore: 
我 们 用 : 
Stext =~ s/*[ \t\r]*$/<p>/mg; 
结果 就 是 
--with.Ml <p> M <p> M <p> M Therefore… 
不 过 ， 如 果 我 们 用 : 





$text =~ s/*\s*$/<p>/mg; 
结果 要 更 好 看 一 些 : 
‘with. <p> Therefore. 


所 以 ， 在 最 终 的 程序 中 ， 我 们 会 使 用 As 大 $| 。 

将 E-mail 地 址 转换 为 超 链 接 形 式 

Text-to-HTML ”转换 的 下 一 步 是 识别 出 E-mail ” 地址， 然后 把 它们 转换 为 “mailto” 链 接 。 例 如 ， 
jfriedl@oreilly.com 会 被 转换 为 二 a:href=“mailto: jfriedl|@oreilly.com” >jfriedl@oreilly.com</a> 。 

用 正则 表达 式 来 匹配 或 者 验证 E-mail 地 址 是 常见 的 情况 。E-mail 地 址 的 标准 规范 寞 第 宜人 条 ， 所 以 很 难 做 
到 百 分 之 白 的 准确 ， 但 是 一 些 人 简单 的 正则 表达 式 束 可 以 应 付 遇 到 的 大 多 数 E-mail 地 址 。E-mail 地 址 的 基本 形 
式 是 username@hostname。 在 思考 该 用 怎样 的 表达 式 来 史 配 各 个 部 分 之 前 ， 我 们 先 看 看 这 个 正则 表达 式 的 
基体 应 用 环境 : 


$text =~ s/\b (username regex\,@hostname regex) \b/<a href=“mailto:$1”>$1<\/a>/g; 


fi Sey Ae PPS OB AEM RAR, SAE IEMA SL COE) 中 ， 另 一 个 在 
replacement 字 人 符 串 的 末尾 。 使 用 这 两 个 反 斜 线 的 理由 各 不 相同 。 我 会 在 稍 后 讨论 \@ C77) ， 现 在 我 们 只 
需要 知道 ，Perl 规 定 作为 文本 字符 的 @ 符 号 必须 转 义 。 

先 介 绍 replacement 字 符 串 中 在 光 7 之 前 的 反 冬 线 比 较 好 。 我 们 已 经 看 到 ，Perl 中 得 找 符 换 的 基本 形式 是 
s/regex/replacement/modifier， 用 笠 线 来 分 隔 。 所 以 ， 如 采 我 们 需要 在 某 个 部 分 中 使 用 矢 线 ， 束 必须 使 用 转 
义 ， 否 则 反 笠 线 会 被 识别 为 分 陋 符 ， 作 为 字符 串 的 一 部 分 。 也 束 是 说 ， 如 果 我 们 硕 望 在 replacement 字 符 串 
中 使 用 二 /a 二 ， 束 必须 写作 二 Va 二 。 

这 么 做 当然 可 以 ， 但 不 太 好 看 ， 所 以 Per 容许 用 户 目 定义 分 隔 符 。 例 如 S! regex! string! modifier， 或 
者 sfregex}{stringjmodifier。 无 论 采用 哪 种 形式 ， 因 为 replacement 字 符 串 中 的 斜 线 不 再 与 分 隔 符 有 冲突 ， 也 
束 不 需要 转 义 。 第 二 种 形式 的 分 隅 从 非常 明显 ， 所 以 从 现在 开始 我 们 采用 这 种 形式 。 

回 到 程序 中 来 ， 请 注意 整个 地 址 是 处 于 i\b...\b | 之 间 的 。 添 加 这 些 单词 分 界 符 能 够 避免 不 完整 匹配 的 

ee 
情况 , 例如 一 一 '。 尽 管 遭 遇 这 种 无 意义 的 字符 串 的 几率 很 小 ， 但 使 用 
单词 分 界 和 从 来 避免 此 类 思 配 一 点 也 不 砍 烦 ， 所 以 我 会 这 么 做 。 请 注音 我 是 如 何 用 括号 包围 整个 E-mail 地 址 
的 ， 这 样 我 们 就 能 使 用 replacement FIFE ‘<ahref=“mailto: $1”>$1</a>’. 

风 配 用 户 名 和 主机 名 

现在 我 们 来 看 匹配 邮件 地 址 所 需要 的 用 户 名 和 主机 名 的 正则 表达 式 。 主 机 名 ， 例 如 regex.info 或 者 
www.oreilly.com， 它 们 由 点 号 分 隔 ， 以 "com'”、“edu、'info'、'5uk” 或 者 其 他 事先 规定 的 字符 序列 结尾 。 匹 配 
E-mail 地 址 的 最 简单 的 办 法 是 \w+MGNw+ Awt) +, H Awt 来 匹配 用 户 名 ， 以 及 主机 名 的 各 个 部 分 。 
不 过 ， 实 际 应 用 起 来 ， 我 们 需要 考虑 得 更 周到 一 些 。 用 户 名 可 以 包含 点 号 和 连 字 和 从 (虽然 用 户 名 不 会 以 这 
两 种 字符 开头 ) 。 所 以 ， 我 们 不 应 该 使 用 \w+| ， 而 应 该 用 wew | 。 这 就 保证 用 户 名 以 \w| 开头 ， 
后 面 的 部 分 可 以 包括 点 号 和 连 字 人 符 。 (请 注意 ， 我 们 在 字符 组 中 把 连 字 和 从 排 在 第 一 位 ， 这 样 束 确 你 它们 被 
作为 连 字 符 ， 而 不 是 用 来 表示 范围 。 对 许多 流派 来 说 ，.-Ww 表 示 的 范围 肯定 是 错误 的 ， 它 会 产生 一 个 随机 
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使 用 连 字 符 时 多 加 小 心 是 个 好 习惯 。) 
主机 名 的 匹配 要 复杂 一 些 ， 因 为 点 号 只 能 作 分 陋 符 ， 也 就 是 说 两 个 点 号 之 间 必 须 有 其 他 字符 。 所 以 在 
前 面 那 个 简单 的 正则 表达 式 中 ， 主 机 名 部 分 用 w+ Aw +) 而 不 是 [\w.]+| 。 后 者 会 匹配 2..x…。 但 
“Artichokes 4@1.00’ 





是 ， 即 使 是 前 者 ， 也 能 够 匹配 ， 上 所 以 我 们 需要 更 细心 一 些 。 

一 个 办 法 是 给 出 末尾 部 分 的 可 能 序列 ， 跟 在 \w+ Awt) *\. (comledulinfo) | ra Ck, Bit 
分 文 应 该 是 comledulgovlintlmillnetlorglbizlinfolnamelmuseumlcooplaerol[a-z][a-z]， 不 过 为 了 简洁 起 见 ， 我 在 这 
里 只 列 出 几 项 ) 。 这 样 就 能 容许 开头 的 w 部 分 ， 然 后 是 可 能 出 现 的 _\xw+| 部 分 ， 最 后 才 是 我 们 指定 
的 可 能 结尾 。 

实际 上 \w| 也 不 是 很 合适 。 \w | 能 够 匹配 ASCI 字 母 和 数字 ， 这 没有 问题 ， 但 有 些 系统 中 Nw 能 够 
匹配 非 ASCIH 字 母 ， 例 如 ai、c、2E、 再 。 在 大 多 数 流派 中 ， 下 男 线 也 是 可 以 的 。 但 这 些 字 符 都 不 应 该 出 现在 
主机 名 中 。 所 以 ， 我 们 或 许 应 该 用 “[a-zA-Z0-9]| ， 或 者 是 [a-z0-9]| 加 上 fi 修饰 符 《〈 进 行 不 区 分 大 小 写 的 
PLAC) 。 主 机 多 可 能 包括 连 字 符 ， 所 以 我 们 用 「[-a-z0-9]| 〈 再 次 注意 ， 连 字符 应 该 放 在 第 一 位 ) 。 于 是 我 
们 得 到 用 来 匹配 主机 名 的 「[-a-z0-9]+〈\.[-a-z0-9]+) *\. Ccomledulinfo) | 。 

无 论 使 用 什么 正则 表达 式 ， 记 住 它们 应 用 的 情境 都 是 很 重要 的 。 | [-a-z0-9]+ (\.[-a-z0-9]+) *\. 
Ccomledulinfo) | 这 个 正则 表达 式 本 身 ， 可 以 匹配 un C: T E a eta 
古 把 它 置 入 程序 运行 的 环境 中 ， 我 们 束 能 确认 ， 它 会 轧 配 我 们 期 望 的 文本 ， 而 急 略 不 期 望 的 内 容 。 实 际 
上 ， 我 会 把 它 放 入 之 前 提 到 的 。 

$text=~s{\b (username regex\@hostname regex) \b}{<a href=“mailto: $1”>$1</a>}gi; (这 里 用 了 
s{...}{...}arbate, WR) , (EET IT. SK, PerlA DIKES Ae, EAH Dev TE AIM, 
(ARK MARETE, EAVES Ae PASTAS: 

Stext =~ st 
\b 
# 把 邮件 地 址 存 入 变量 $1 .… 
( 
username regex 
\@ 
hostname regex 
) 
\b 
}{<a href=“mailto:$1”>$1</a>}gix; 


啊 哈 ， 现 在 看 起 来 大 不 一 样 了 。 语 名 末尾 出 现 了 MX (在 /g 和 /i 之 后 ) ， 它 对 这 个 正则 表达 式 做 了 两 件 简 
单 但 有 意义 的 事情 。 首 先 ， 大 多 数 空白 字符 会 被 忽略 ， 用 户 能 够 以 “宽松 排列 〈free-format) ”编排 这 个 表达 
式 ， 增 强 可 讯 性。 其 次 ， 它 容许 出 现 以 # 开 头 标记 的 注释 。 

要 指出 的 是 ， 加 上 人 之后， 表达 式 中 的 大 部 分 空格 符 变 为 “忽略 目 且 ?元 字符 C“ignore 
me”metacharacter) ， 而 井 的 意思 是 “忽略 该 字符 及 其 之 后 第 一 个 换行 符 之 前 的 所 有 字符 ”( 喇 111) 。 它 们 
不 是 作为 字符 组 内 部 的 元 字符 〈 也 束 是 说 ， 即 便 使 用 了 AM， 这 些 字 符 组 也 不 是 “随意 编排 ?的 ) 来 对 竺 的， 
而 且 ， 同 其 他 元 字符 一 样 ， 如 果 希 望 把 它们 作为 普通 字符 来 处 理 ， 也 可 以 对 它们 加 以 转 义 。 当 然 ，\s| 总 
是 能 够 风 配 空白 字符 ， 例 如 m/ 二 a\sthref=... 之 /x。 

请 注意 ， 人 只 能 应 用 于 正则 表达 式 本 身 ， 而 不 是 replacement 字 符 串 。 同 样 ， 即 使 我 们 现在 使 用 的 是 
s{...}{ 人 .的 格式 ， 修 饰 符 接 在 最 后 的 小 之 后 《例如 中 xx) ， 但 是 在 文中 我 们 仍然 使 用 ”xz 代表“ 修饰 符 X”。 

综合 起 来 

现在 ， 我 们 可 以 把 用 户 名 、 主 机 名 的 部 分 ， 以 及 之 前 的 开发 成 果 结 合 起 来 ， 得 到 相对 完整 的 程序 : 





但 











[| 日 日 Linux[| || www.linuxide.com [] [] 


undef S$/; EA “LHÈR” 模式 


Stext =<>; # 读 入 命令 行 中 指定 的 第 一 个 文件 名 

$text =~ s/&/&amp;/g; # 把 基本 的 HIML .… 
Stext =~ s/</é&lt;/g; i « Sar & < Fe> « 
$text =~ s/>/éigt;/g; # . 进行 HTML 转 义 
$text =~ s/*\s*S$/<p>/mg; # 划分 段落 


# 转换 为 链接 形式 .… 
$text =~ s{ 
\b 
# 把 地 址 保存 到 $1 .… 
( 
\w[-.\w] * # username 
\@ 
[-a-z0-9]+(\. [-a-z0-9]+)*\.(com|edu|info) # hostname 
) 
\b 
f {<a href=“mailto:$1”">Sl</a>jqizx; 


print Stext; # m&, Z7 HTML 文本 


所 有 的 正则 表达 陈 都 应 用 于 同一 个 包含 多 行文 本 的 字符 串 ， 需 要 注意 的 是 ， 只 有 用 于 划分 段落 的 正则 

表达 式 才 使 用 /修饰 符 ， 因 为 只 有 那个 正则 表达 式 用 到 了 A A'S) 。 对 其 他 正则 表达 式 使 用 /m 并 不 会 产 
影响 (只 会 令 看 程序 的 人 迷惑 )。 

把 HTTP URL 转 换 为 链接 形式 

最 后 ， 我 们 需要 识别 HTTP ” URL， 将 它 变 为 链接 形式 。 也 就 是 说 把 “http: /www.yahoo.com tE EN < 
a‘href=http: //www.yahoo.com/>http: /www.yahoo.com/=/a>。 

HTTP URL 的 基本 形式 是 http: /hostname/path， 其 中 的 /path 部 分 是 可 选 的 。 于 是 我 们 得 到 下 面 的 形 
rk: 





Stext =~ st 
\b 
# 将 URL 保 存 至 $1 ... 
( 
http:// hostname 


( 
/ Path 


$: 


) 
}{<a href=”$1">$1</a>}gix; 


主机 部 分 的 匹配 可 以 使 用 在 E-mail 例 子 中 用 过 的 子 表 达 式 。URL 的 path 部 分 可 以 包括 各 种 字符 ， 在 前 一 
章 中 我 们 使 用 的 是 [-a-z0-9_ : @&? =+，.! /~*'%S]* ) (S25), EMTS REAP. REAM 
> O {} ZIP Ke BASCILF FF 

在 使 用 Perl 解决 这 个 问题 之 前 ， 我 们 必须 对 @ 和 $ 进 行 转 义 。 同 样 ， 我 会 在 稍 后 讲解 原因 C77) 。 
现在 ， 我 们 来 看 hostname 和 和 path 部 分 : 


[| 日 Linux[| [|] www.linuxidc.com |] [] 


$text =~ st 
\b 
# 将 URL 保 存 至 $1 .. 
( 
http:// [-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edu|info) \b # hostname 
( 
f [-a-z0-9 :\@&?=+,.!/~*'S\S]* 一 和 人 
E 
) 
}{<a href=“$1”">S1</a>}gqix; 


你 可 能 注意 了 ， 在 path 之 后 没有 “\b| ， 因 为 URL 之 后 通常 都 是 标点 符号 ， 例 如 本 书 在 O’Reilly 的 URL 


gu 


http://www.oreilly.com/catalog/regex3/ 
如 果 末 尾 有 i\\b， ， 就 不 能 匹配 。 
也 就 是 说 ， 在 实际 中 ， 我 们 需要 对 表示 UREL 结 束 的 字符 做 一 些 人 为 的 规定 。 比 如 下 面 的 文本 : 
Read “odd” news at http://dailynews.yahoo.com/h/od,, and 
maybe some tech stuff at http://www.slashdot.com! 
现在 正则 表达 式 能 够 匹配 标注 出 的 文本 了 ， 当 然 末 尾 的 标点 显然 不 应 该 作为 URL 的 一 部 分 。 在 匹配 英 
文 文本 中 的 URL 时 ， 末 尾 的 |[.，? ! ]| 是 不 应 该 作为 URL 的 一 部 分 的 (这 并 不 是 什么 规定 ， 而 是 我 的 经 
验 ， 而 且 大 多 数 时 候 都 有 效 ) 。 这 很 简单 ， 只 需要 在 表达 式 的 末尾 添加 一 个 表示 “ 除 '[.，? ! ]| 之 外 的 任 
何 字 符 ” 的 否定 逆序 环视 ，“”(? <! [.，? ! ]) | 即 可 。 结 果 就 是 ， 在 我 们 匹配 到 作为 URL 匹 配 的 文本 之 
后 ， 赣 序 环 视 会 反 过 头 来 看 一 眼 ， 傈 证 最 后 的 字符 符合 有 要求。 如 末 不 符合 有 要求， 引擎 珊 会 重新 检 柱 作为 
URL 的 字符 串 ， 直 到 最 终 符合 要 求 为 止 。 也 吏 是 强迫 去 折 最 后 的 标点 ， 让 最 后 的 揽 序 环视 匹配 成 功 〈 在 第 
5 半 我 们 会 看 到 为 一 个 解决 办 法 号 206) 。 
插入 之 后 ， 我 们 得 到 了 完整 的 程序 : 














[| 日 Linux[| [|] www.linuxidc.com |] [] 


undef $/; # 进入 “XR 模式 
Stext = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 


$text =~ s/&/&amp;/g; + 转换 基本 的 HIML .. 
Stext =~ s/</&lt;/g; F Fhe & < 和 > .. 
Stext =~ s/>/&gt;/g; # ... 进行 HTML 4X 
etext =» s/*\s*$/<p>/mg; # 划分 段落 


# 将 E-mail 地 址 转换 为 链接 形式 .… 
Stext =~ s{ 

\b 

# 把 地 址 保存 到 $1 .… 

( 


\w[-.\w]* # username 
\ @ 
[-a-20-9)]+ (Ya [-a-2z0-9)4+)7\.(com|edulinto) hostname 


) 
\b 
}{<a href=“mailto:$1”>$1l</a>}gix; 


# FF HTTP URL 4648 A AEG & ... 
Stext =~ si 
\b 
# AF URL 保存 至 $S1 ... 
( 
http:// [-a-z0-9]+(\. [-a-z0-9]+)*\.(com|edu|info) \b # hostname 
( 
/ [-a-z0-9 :\@&?=+,.!/~*'"S\S]*  # path 不 一 定 会 出 现 
(有 【1 ) # AREVA[., aE 
)? 
) 
}{<a href=“$1”">S1</a>}gqix; 
print $text; # RE, ETAR 


构建 正则 表达 式 库 

请 注意 ， 在 这 两 个 例子 中 ， 我 们 使 用 同样 的 正则 表达 式 来 轧 配 主机 名 ， 也 就 是 说 ， 如 末 要 修改 轧 配 主 
机 名 的 表达 式 ， 我 们 和 希望 这 种 修改 会 同时 对 两 个 例子 生效 。 我 们 可 以 在 程序 中 多 次 使 用 变量 
$HostnameRegex， 而 不 是 把 这 个 表达 式 写 在 各 处 ， 杂 乱 无 络 ; 





由 串口 局 bBinux |] www.linuxide.com [] L 


SHostnameRegex = gr/[-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edu|info) /i; 


# 将 E-mail 地 址 转换 为 链接 形式 .… 
Stext =~ s{ 

\b 

# 将 地 址 保存 至 $1... 

( 


\w[-.\w]* # username 
\@ 
SHostnameRegex # hostname 
) 
\b 


}{<a href=“mailto:$1”>$1</a>}gix; 


# + HTTP URL 转换 为 链接 形式 .… 
Stext =~ s{ 
\b 
t Capture the URL to $1 ... 
( 
http:// $HostnameRegex \b # hostname 
( 
六 t path 不 一 定 会 出 现 
(7<1 [xg FEI # 不 容许 以 [。 2!) A 
} 
) 
Hi<a href="S1">Sl</a>}gqix; 


第 一 行使 用 了 Perl 的 qr 操作 从 。 它 与 m 和 s 操 作 和 从 类似， 接收 一 个 正则 表达 式 例 如， 使 用 gr/.../， 类 似 
使 用 my.../ 和 s/.../.../〉， 但 并 不 号 上 把 这 个 正则 表达 式 应 用 到 某 段 文本 中 进行 思 配 ， 而 是 由 这 个 表达 式 生 
成 为 一 个 “regex 对 象 〈(regex object) ”， 作 为 变量 你 存 。 之 后 我 们 就 能 使 用 这 个 对 象 。〔 在 本 例 中 ， 我 们 用 
变量 $HostnameRegex 来 你 存 这 个 变量 ， 供 后 面 两 个 正则 表达 式 使 用 。)〉 这样 做 非 党 方便 ， 因 为 程序 看 起 来 
非 党 清楚。 此外， 我 们 的 匹配 主机 名 的 正则 表达 式 只 存在 一 个 “ 主 源 (main source) ”， 这 样 无 论 在 哪里 需 
要 匹配 主机 名 ， 都 可 以 直接 使 用 它 。 第 6 章 (2277) 还 有 关于 构建 这 种 “正则 表达 式 库 ”的 例子 ， 具 体 讲 解 
见 第 7 章 C303) 。 

其 他 的 语言 也 提供 了 创建 正则 表达 式 对 象 的 方法 ， 下 一 章 我 们 会 
在 第 8 和 第 9 章 详细 讲解 。 

为 什么 有 时 候 $ 和 @ 需 要 转 义 

你 可 能 注意 到 了 ，“$ 和 从 号 既 可 以 作为 表示 字 从 串 结束 的 元 字符， 又 可 以 用 来 标记 变量 。 通 常 ，'$ 的 总 
思 是 很 明确 的 ， 但 如 末 在 字符 组 内 部 ， 情 况 束 有 些 膝 焕 ， 因 为 此 时 它 不 能 用 来 表示 字符 串 的 结束 位 置 ， 只 
能 在 转 义 之 后 ， 用 来 标记 变量 。 在 转 义 之 后 ，5$' 就 只 是 字符 组 的 一 部 分 。 而 这 正 是 我 们 所 要 的 ， 所 以 我 们 
需要 在 URL 匹 配 的 正则 表达 式 中 对 它 进 行 转 义 。 

四 的 情况 与 之 类 似 。Perl 用 @ 表 示 数 组 名 ， 而 Perl 中 的 字符 串 或 正则 表达 式 中 也 容许 出 现 数 组 变量 。 
如 采 我 们 和 希 刻 在 正则 表达 陈 中 使 用 @ 字 符 ， 束 需要 进行 转 义 ， 避 免 把 它 作 为 数组 名 。 一 些 语言 〈Java、 
VB.NET, C, CH, Emacs, awk¥) 不 支持 变量 插值 (variable interpolation) 。 有 些 语言 〈 例 如 Perl、 
PHP、Python、Ruby 和 Tal) 文 持 变量 插值 ， 但 是 方法 各 有 不 同 。 我 们 会 在 下 一 重 详细 讲解 〈 嗓 101) 。 


回 到 单词 重复 问题 


简要 介绍 耕 干 语言 ， 而 Java 和 .NET 则 


That Doubled-Word Thing 


我 希望 第 1 PLB Mia) eS fl BLE | iL Ee sae he ened oxide on H | 


难 恒 的 代码 ， 将 其 作为 解法 之 一 : 
of = me W 
while (<>) { 
next if !s/\b([a-z]+) ((?:\s|<[*>]+>) +) (\L\b) /\e[7m$1\e [m$2\e [7m$3\e [m/ig; 
s/*(?:[*\e]*\n)+//mg; # 删除 所 有 未 标记 的 行 
s/*/SARGV: /mg; # 在 行 首 增加 文件 名 
print 
} 
对 Pel ASHE SHR a, RETARO BA TE Bs BY EM eA SU —— <>, =Ss/.../ 
n WXeprint. AR, ARE EDO IATA ME. WRK FT Pelt MWe ERA Ae Cm AS FENRIZ 
的 知识 都 来 自 之 前 的 章节 ) ， 这 个 例子 可 能 会 超出 你 的 理解 能 力 。 不 过 ， 如 果 细 致 考察 起 来 ， 我 认为 这 个 
正则 表达 却 并 不 复杂 。 在 重读 程序 之 前 ， 我 们 不 妨 回 过 头 看 看 第 1 页 的 程序 规格 要 求 ， 并 答 试 运行 一 次 : 
% perl -w FindDbl ch01.txt 
ch01.txt: check for doubled words (such as this this), a common problem with 
ch01.txt: * Find doubled words despite capitalization differences, such as with 'The 
chO1.txt:the', as well as allow differing amounts of whitespace (space, tabs, 
ch0l.txt: /\<(1,000,000|million|thousand thousand) / But alternation can't be 
chol .txt: of this chapter. If you knew the the specific doubled word to find (such 


先 来 看 这 个 Perl 的 解法 ， 然 后 我 们 会 看 到 一 个 Java 的 解法 ， 接 触 男 一 种 使 用 正则 表达 式 的 思路 。 现 在 列 
在 下 面 的 程序 使 用 了 s{regex}{replacement}jmodifier 的 答 换 形式 ， 同 时 使 用 了 AM 修饰 符 来 提高 清晰 程度 〈 衬 
AIF AAAI, Be EA BD TRY ‘next unless: 符 换 人 ext if! ’) 。 除 去 这 些 ， 它 与 本 章 开 头 的 程序 其 实职 
是 一 模 一 样 的 。 

示例 2-3: 用 Perl 处 理 重复 单词 


[| 日 Linux[| |] www.linuxidc.com [| L 


S/ = ™“.\n"; 0 # 设 定 特殊 的 “ 块 模式 (“chunk-mode”) ; 一块 文 本 的 终结 为 点 号 和 换 
行 符 的 结合 体 
while (< >) e 
{ 
next unless s{+ # (下 面 是 正则 表达 式 ) 

### 匹配 一 个 单词 : 
\b # 单词 的 开始 位 置 .… 
( [a-z]+ ) # 把 读 取 的 单词 存储 至 $1 (和 \1) 


ttt 下 面 是 任意 多 的 空白 字符 和 /或 tag 
( # 把 空白 保存 到 $2 


(2% # (使 用 非 捕 获 型 括号 ) 
\s # 空白 字符 ” (包括 换行 符 ， 这样 非常 方便 ) 
| # 或 者 是 
<[*>]+> # <TAG> 形 式 的 tag 

) + # EVYERRM—KR, SRECRA 


) 


ttt 现在 再 次 匹配 第 一 个 单词 : 
(\1\b) # \b 保证 用 来 避免 谋 套 单词 的 情况 ,保存 到 $3 
# (SEM) AIA AS RK) 
} 
# 上 面 是 正则 表达 式 . 下 面 是 replacement 学 符 事 ， 然 后 是 修饰 符 、/i、/g 和 /x 
{\e[7m$1\e[m$2\e[7m$3\e[m]ligx; + 


s/*(2?:[*\e]*\n)+//mg; = # 去 掉 所 有 未 标记 的 行 
s/*/SARGV: /mg; = E 在 每 行 开 头 加 上 文件 名 
Prints 


} 

这 小段 程序 中 出 现 了 许多 我 们 没 见 过 的 东西 。 下 面 我 会 简要 地 介绍 它们 以 及 背后 的 锡 辑 ， 不 过 我 建议 
该 者 得 看 Perl 的 man page 了 解 细 市 (如 果 是 正则 表达 式 相 关 的 细节 ， 可 以 但 阅 第 7 章 ) 。 在 下 面 的 描述 
F, GHA” (magic) 的 意思 是 “这 里 用 到 了 读者 可 能 不 熟悉 的 Perl 的 特性 ”。 

0 因为 单词 重复 问题 必须 应 付 单词 重复 位 于 不 同行 的 情况 ， 我 们 不 能 延续 在 E-mail 的 例子 中 使 用 的 普通 
的 按 行 处 理 的 方式 。 在 程序 中 使 用 特殊 变量 $/( 没 错 ， 这 确实 是 一 个 变量 ) 能 使 用 一 种 神奇 的 方式 ， 让 去 
> 不 再 返回 单行 文字 ， 而 返回 或 多 或 少 的 一 段 文字 。 返 回 的 数据 仍然 是 一 个 字符 串 ， 只 是 这 个 字符 串 可 能 
包含 多 个 逻辑 行 。 

e 你 是 否 注 意 到 ， 过 > 没有 值 赋 给 任何 变量 ? 作为 while 中 的 条 件 使 用 时 ， 过 > 的 神奇 之 处 在 于 ， 它 能 
够 把 字符 串 的 内 容 赋 给 一 个 特殊 的 默认 变量 QE 6) 。 该 变量 保存 了 s/.../.../ 和 print 作 用 的 默认 字符 串 。 使 
用 这 些 默认 变量 能 够 减少 元 余 代 码 ， 但 Perl 新 手 不 容易 看 明白 ， 所 以 我 还 是 推荐 ， 在 你 习惯 之 前 ， 把 程序 
写 得 更 清楚 一 些 。 

:如果 没 有 进行 任何 蔡 换 ， 那 么 替换 命令 之 前 的 next unless 会 导致 Perl 中 断 处 理 当 前 字符 串 〈 转 而 开始 
下 一 个 字符 串 ) 。 如 果 在 当前 字符 串 中 没有 找到 单词 重复 ， 也 束 不 必 进 行 下 一 步 的 工作 。 

”replacement 字 从 串 包 含 的 就 是 “$1$2$3”， 加 上 插入 的 ANSI 转 义 序列 ， 把 两 个 重 县 的 词 标 记 为 避 党 ， 
中 间 的 部 分 则 不 标记 高 误 。 转 义 序列 \e[7m 用 于 标注 高 亮 的 开始 ，\e[m 用 于 标注 高 之 的 结束 〈 在 Perl 的 正则 
表达 式 和 字符 串 中 ，\e 用 来 表示 ASCII 的 转 义 字符 ， 访 字符 表示 之 后 的 字符 为 ANSI 转 义 序列 ) 。 

仔细 看 看 正则 表达 式 中 的 那些 插 写 ， 你 会 发 现 “$1$2$3” 表 示 的 完全 就 是 匹配 的 文本 。 所 以 ， 除 了 添加 
转 义 序列 之 外 ， 整 个 替换 命令 并 没有 进行 任何 实质 稀薄 | [] [] Linux O www.linuxidc.com O 0 








我 们 知道 $1 和 $3 匹配 的 是 同样 的 文本 〈 这 也 是 整个 程序 的 意义 所 在 ! ) ， 所 以 在 replacement 中 只 用 
一 个 也 是 可 以 的 。 不 过 ， 因 为 这 两 个 单词 的 大 小 写 可 能 有 区 别 ， 我 用 了 两 个 变量 。 

= ”这 个 字符 串 可 能 包括 多 个 他 辑 行 ， 不 过 在 蕉 换 命 令 标 记 了 有 所有 的 午 复 单词 之 后 ， 我 们 名望 只 保留 那 
些 包 含 转 义 字 从 的 逻辑 行 。 去 挥 不 包含 转 义 字 从 的 逻辑 行 之 后 ， 留 下 的 就 是 字符 串 中 我 们 需要 处 理 的 行 。 
因为 我 们 在 蔡 换 中 使 用 的 是 增强 的 行销 点 匹配 模式 Wm 修饰 符 ) ， 正 则 表达 式 和 ([ 和 Ne]x*\n) +, 能 够 找 出 
不 包含 转 义 字符 的 逻辑 行 。 用 这 个 表达 式 来 蔡 换 挥 所 有 不 需要 处 理 的 行 。 结 果 留 下 的 只 是 包含 转 义 字 从 的 
旬 辑 行 ， 也 即 那些 包 售 单词 重复 的 行 〈《 注 7) 。 

x 变量 $ARGYV 提供 了 输入 文件 的 名 字 。 结 合 /m 和 /g， 这 个 替换 命令 会 把 输入 文件 名 加 到 留 下 的 每 一 个 
逻辑 行 的 开头 。 多 酷 ! 

最 后 ，print 会 输出 字符 串 中 留 下 的 馆 辑 行 以 及 转 义 字符 。while 循 环 对 输入 的 所 有 字符 串 重 复 处 理 〈 每 
次 处 理 一 段 ) 。 

更 深入 一 点 : 运算 符 、 图 数 和 对 象 

我 之 前 已 经 强调 过 ， 在 本 章 我 以 Pel 作为 工具 来 讲解 概念 。Perl 的 确 是 一 种 有 用 的 工具 ， 但 我 想 要 强 
调 的 是 ， 这 个 问题 利用 其 他 语言 的 正则 表达 式 解 决 起 来 也 很 容易 。 

同样 ， 因 为 Perl 具有 与 其 他 高 级 语言 不 同 的 独特 风格 ， 讲 解 这 些 和 概念 更 加 容易 。 这 种 独特 风格 就 是 ， 
正则 表达 式 是 “基础 级 别 (first-class) ”的 。 也 残 是 说 ， 基 本 的 运算 符 可 以 直接 作用 于 正则 表达 式 ， 束 好 像 
+ 和 和 -作用 于 数字 一 样 。 这 样 减轻 了 使 用 正则 表达 式 的 “语法 包容 ”(syntactic baggage) 。 

其 他 许多 语言 并 没有 这 样 的 特性 。 因 为 第 3 草 中 提 到 的 原因 C293) ， 许 多 现代 语言 坚持 提供 专用 的 函 
数 和 和 对象 来 处 理 正 则 表达 式 。 例 如 ， 可 能 有 一 个 函数 接收 表示 正则 表达 式 的 字符 串 ， 以 及 用 于 搜索 的 文 
本 ， 然 后 根据 正则 表达 式 能 人 奋 匹 配 该 文本 ， 人 返回 真 值 或 假 值 。 更 常见 的 情况 是 ， 这 两 个 功能 (首先 对 一 个 
作为 正则 表达 式 的 字符 串 进 行 解 释 (Cinterpretion) ， 然 后 把 它 应 用 到 文本 当中 ) 被 分 割 为 两 个 或 更 多 分 离 
的 函数 ， 就 像 下 一 页 的 Java 代 但 一 样 。 这 些 代码 使 用 Javal.4 以 后 作为 标准 的 java.util.regex 包 。 

在 程序 的 上 部 我 们 看 到 ， 在 Perl 中 使 用 的 3 个 正则 表达 式 在 Java 中 作为 字符 串 传 递 给 Pattern.compile 
程序 。 通 过 比较 我 们 及 现 ，Java 厂 本 的 正则 表达 式 包含 了 更 多 的 反 斜 线 ， 原 因 是 Java 要 求 正 则 表达 式 必须 
正则 表达 式 中 的 反 和 斜 线 必 须 转 义 ， 以 避免 Java 在 解析 字符 串 时 按照 目 己 的 方式 处 理 它 
门 。 

我 们 还 应 该 注意 到 ， 正 则 表达 陈 不 是 在 程序 处 理 文 本 的 主体 部 分 出 现 ， 而 是 在 开头 的 初始 化 部 分 出 现 
的 。Pattern.compile 男 数 所 作 的 仅仅 是 分 析 这 些 作 为 正则 表达 式 的 字符 串 ， 构 建 一 个 “已 编译 的 版 本 
(compiled version) ”， 将 其 赋 给 Pattern 变 量 〈 例 如 regex1) 。 然 后 ， 在 处 理 文本 的 主体 部 分 ， 已 编译 的 版 
本 通过 regexl.matcher (text) 应 用 到 文本 之 上 ， 得 到 的 结果 用 于 蔡 换 。 同 样 ， 我 们 会 在 下 一 和 草 探 客 其 中 的 
细 世 ， 在 这 里 我 们 只 需要 了 解 ， 在 学 习 任 何 一 门 文 持 正 则 表达 式 的 语言 时 ， 我 们 需要 注意 两 点 : 正则 表达 
式 的 流派 ， 以 及 讼 语言 运用 正则 表达 式 的 方式 。 

示例 2-4: 用 Java 解 决 重复 单词 的 问题 




















[| 日 日 Linux[| || www.linuxidc.com [] [] 


import java.10.*; 
import java.util.regex.Pattern; 
import java.util.regex.Matcher; 


public class TwoWord 

{ 

public static void main(String 
{ 


Pattern regexl = 


[] args) 


Pattern.compile ( 


‘\\b [a-z] +) ((?:\ASIA\\<[*>] +4\\>) NL Y YD)”; 


Pattern.CASE INSENSITIVE) ; 


String replacel = “\033[7m$1\033 [m$2\033[7m$3\033[m”; 


Pattern regex2 
Pattern regex3 = 


// 对 于 命令 行 的 每 个 参数 进行 如 下 处 理 


1 < args.length; 


for (int i = 0; 
{ 
try t 
BufferedReader in = 
String text; 


= Pattern.compile(“*(?: [*\\e] *\\n) +”, 
Pattern.compile (“*([*\\n]+) ”, 


Pattern.MULTILINE)  ; 
Pattern.MULTILINE); 


feeeee 


1 ++) 


new BufferedReader (new FileReader(args[i])); 


// For each paragraph of each file.... 


while ((text = 
{ 
// 应 用 3 条 替换 规则 


text = regexl.matcher (text) 
text = regex2.matcher (text) 
text = regex3.matcher (text) 


// 显示 结果 


System.out.print (text) ; 


} 
catch (IOException e) { 


System.err.println(“can't read 


} 
} 


// 用 于 读 入 一 段 文本 的 子 程序 


static String getPara (BufferedReader in) 


{ 
StringBuffer buf = 
String line; 


(iline = in.readLine() ) 
(buf.length() == | | 


while 


{ 
buf.append(line + “\n”); 

} 

return buf.length() 


— 
— 


getPara (in) |) 


9. 2 pull 


I= null) 


.replaceAll (replacel) ; 
.replaceAll(“™); 
.replaceAll (args [i] 


+ Me S17) ; 


[“+args[i]+”]: “ + e.getMessage()); 


throws Jjava.io.IOException 


new StringBuffer (); 


l= null && 
line.length () 


!= 0)) 


: buf.toString(); 


O O O O Linux{] |) www.linuxidc.com [] [] 
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Overview of Regular Expression Features and Flavors 

现在 我 们 稍微 找到 点 感觉 了 ， 也 见识 了 符 干 使 用 正则 表达 却 的 工具 软件 ， 你 可 能 觉得 ， 该 坐 下 来 游 心 
研究 研究 如 何 使 用 它们 了 。 不 过 ， 比 较 比 较 第 1 章 中 不 同 版 本 的 egrep， 或 是 前 一 章 中 Perl 程 序 和 Java 程 序 的 
区 列 束 会 友 现 ， 工 具 不 同 ， 正 则 表达 式 的 写法 和 用 法 部 有 很 大 的 不 同 。 

在 某 种 特定 的 笨 主 语言 或 工具 软件 中 使 用 正则 表达 式 时 ， 主 要 有 3 个 问题 值得 注意 : 

e 文 持 的 元 字符 ， 以 及 这 些 元 字符 的 意义 。 这 通常 称 为 正则 表达 式 的 “流派 (flavor) ”。 

e 正则 表达 式 与 语言 或 工具 的 “交互 ”(interface) 方式 。 和 壁 如 如 何 进 行 正 则 表达 式 操 作 ， 容 许 进行 哪些 
操作 ， 以 及 这 些 操作 的 目标 文本 类 型 。 

e 正 则 表达 式 引 擎 如 何 将 表达 式 应 用 到 文本 。 语 言 或 工具 的 设计 者 实现 正则 表达 式 的 方法 ， 对 正则 表 
达 式 能 够 取得 的 结果 有 睾 要 的 影 啊 。 

正则 表达 式 和 汽车 

购买 汽车 时 ， 我 们 需要 考虑 的 问题 和 上 面 3 点 很 相似 。 正 则 表达 式 中 的 元 字符 是 应 当前 完 关注 的 ， 它 
相当 于 汽车 的 造型 、 色 彩 和 内 饰 ， 例 如 CD 播放 器 和 真皮 座 椅 。 印 刷 光鲜 的 宣传 册 上 经 常 可 以 见 到 这 些 信 
恩 ， 在 正则 表达 式 的 世界 中 ， 与 之 对 应 的 就 古 第 32 页 的 元 字 和 从 列表。 这些 信息 很 重要 ， 但 还 不 是 全 部 。 

正则 表达 式 与 答 主语 言 的 交互 方式 (interface〉 也 很 乍 要 。 交 互 方式 的 一 部 分 内 容 起 到 沪 饰 性 作用 ， 插 
述 对 应 的 编程 语言 中 正则 表达 式 的 应 用 规则 。 另 一 部 分 内 容 定义 功能 ， 它 们 决定 了 语言 所 能 支持 的 操作 ， 
以 及 操作 的 难 易 程 度 。 对 应 于 汽车 的 例子 ， 它 相当 于 汽车 与 我 们 和 我 们 的 生活 相 “ 绪 合 ”的 程度 。 茶 些 问题 
可 能 是 装饰 性 的 ， 例 如 加 油 口 在 车 的 哪 一 侧 ， 车 禄 是 否 能 电动 升降 。 其 他 问题 可 能 重要 些 ， 例 如 是 手动 区 
速 还 是 目 动 变速 。 还 有 些 天 于 功能 的 问题 : 你 的 车 怎样 开 进 和 车库? EER BOT AS RAIS? OR ET 
雪 板 呢 ? 或 者 五 个 大 人 ? 《以 及 这 些 人 如 何 进出 ， 在 这 个 问题 上 四 门 车 显然 比 两 门 车 有 优势 ) 。 宣 传 册 会 
介绍 一 些 此 类 信息 ， 不 过 你 可 能 需要 阅读 封 压 的 小 字 才 能 了 解 所 有 细 市 。 

最 后 需要 关注 的 是 引擎 ， 以 及 引擎 驱动 车 轮 的 原理 。 汽 车 的 类 比 在 这 里 不 适用 ， 因 为 大 家 都 理解 汽车 
发 动机 工作 的 基本 知识 : 如 条 是 汽 油 妥 动机， 人 们 残 不 会 往 油 箱 里 加 某 油 。 如 采 古 手动 变速 ， 他 们 不 会 环 
记 踩 离合 右 。 但 是 ， 在 正则 表达 却 的 世界 中 ， 即 使 是 一 些 最 基本 的 知识 : 例如 正则 引擎 的 匹配 原理 ， 以 及 
该 原理 对 表达 式 的 调 校 和 使 用 的 影响 ,通常 部 没有 文档 介绍 。 但 是 ， 这 些 细节 对 实际 使 用 正则 表达 式 又 极 
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本 章 有 的 内 容 

如 标题 所 示 ， 这 一 章 讲解 正则 表达 式 的 特性 和 流派 。 它 介绍 了 经 常 使 用 的 元 字符 ， 以 及 在 具体 的 工具 
软件 中 使 用 正则 表达 却 的 方式 。 这 些 内 容 谓 兰 了 上 文 提 到 的 前 面 两 点 。 第 三 氮 一 一 正则 引擎 是 如 何 工作 
的 ， 这 些 工 作 原 理 有 什么 实际 意义 一 一 会 在 下 面 的 几 草 中 涉及 。 

关于 本 章 ， 我 要 说 的 一 点 是 ， 它 并 不 能 告诉 你 某 种 工具 软件 中 的 正则 表达 式 提供 了 哪些 特性 ， 也 不 会 
教育 你 如 何 使 用 在 提 过 的 各 种 工具 软件 和 编程 语言 中 运用 正则 表达 式 。 相 反 ， 它 的 目的 是 ， 提 供 天 于 正则 
表达 却 本 身 和 使 用 它 的 工具 软件 的 完整 图 景 。 如 采 我 们 与 世 隔绝 ， 只 使 用 一 件 工具 ， 或 许 不 需要 关心 其 他 
的 工具 《或 者 是 该 工具 的 其 他 版 本 ) 有 什么 差 开 。 但 现实 情况 并 非 如 此 ， 所 以 了 解 我 们 所 用 工具 的 技术 调 
源 ， 或 许 能 够 提供 有 趣 而 义 有 价值 的 局 示 。 



































[| 日 日 Linux[| || www.linuxide.com [] [] 


在 正则 的 世界 中 漫步 


A Casual Stroll Across the Regex Landscape 

我 豆 欢 在 故事 的 开头 讲 讲 茶 些 正则 表达 却 的 流派 以 及 相应 程序 的 演变 过 程 。 所 以 ， 请 准备 一 杯 你 最 可 
欢 的 热 〈 或 深 的 ) 饮料 ， 帮 轻松 ， 我 们 一 起 来 看 看 今天 的 正则 表达 式 背 后 占 怪 的 肥 展 史 。 这 样 做 是 为 了 让 
你 全 面 了 解 正则 表达 式 ， 培 状 奶 问 “为 什么 会 如 此 ”的 习惯 。 我 们 为 有 兴趣 的 读者 准备 了 一 些 脚注 ， 不 过 大 


部 分 脚注 只 能 算是 博得 读者 一 灾 的 化 宗 。 





正则 表达 式 的 起 源 


The Origins of Regular Expressions 

关于 正则 表达 式 ， 最 急 的 想法 来 自 20 世 纪 40 年 代 的 两 位 神经 学 家 ，Warren McCulloch 和 Walter Pitts， 他 
们 研究 出 一 种 模型 ， 认 为 神经 系统 在 神经 元 层面 上 束 是 这 样 工作 的 〈 注 1) 。 厂 干 年 后 ， 数 学 家 Stephen 
Kleene 在 代数 学 中 正式 摘 述 了 这 种 被 他 称 为 “正则 集合 ”(regular ”sets)〉 的 模型 ， 正 则 表达 式 才 成 为 现实 。 
Stephen 发 明了 一 套 人 简洁 的 表示 正则 集合 的 方法 ， 他 称 之 为 “正则 表达 式 ” (regular expressions) 。 

20 世 纪 50 年 代 和 和 60 和 年代， 理论 数学 界 对 正则 表达 式 进 行 了 充分 的 研究 。Robert Constable 的 文章 为 那些 
对 数学 感 兴趣 的 读者 提供 了 很 不 错 的 简介 《〈 注 2) 。 

尽管 存在 更 古老 的 应 用 正则 表达 式 的 证 据 ， 但 我 能 找到 的 是 ， 关 于 在 计算 方面 使 用 正则 表达 陈 的 资 
料 ， 最 早 发 表 的 是 1968 年 Ken Thompson 的 文章 Regular Expression Search Algorithm ( 注 3) ， 在 文中 ， 他 
描述 了 一 种 正则 表达 式 编译 器 ， 该 编译 器 生成 了 IBM 7094 的 object 代 码 。 由 此 也 诞生 了 他 的 ged， 这 种 编辑 
项 后 来 成 了 Unix 中 ed 编辑 磺 的 基础 。 

ed 的 正则 表达 式 并 不 如 qed 的 先进 ， 但 是 这 是 正则 表达 式 第 一 次 在 非 技术 领域 大 规模 使 用 。ed 有 条 命 
令 ， 显 示 正 在 编辑 的 文件 中 能 够 匹配 特定 正则 表达 式 的 行 。 该 命令 “g/Regular Expression/p”， 读 作 


Global Regular Expression Print 《应 用 正则 表达 式 的 全 局 输出 ) 。 这 个 功能 非常 实用 ， 最 终 成 为 
独立 的 工具 grep〈 之 后 又 产生 了 egrep 一 一 扩展 的 grep) 。 

Grep 中 的 元 字符 

相 比 egrep，grep 和 其 他 早期 工具 所 文 持 的 元 字符 相当 有 限 。 元 字符 类 是 受 文 持 的 ， 但 是 + 和 ? 则 不 受 
文 持 《〈 不 文 持 问 号 是 很 严重 的 缺陷 ) 。Grep 中 用 于 捕获 元 字符 的 是 \(...\) ， 而 未 转 义 的 括号 会 当 作 普通 
字符 GEA) 。grep 文 持 行 锁 点 〈line anchors) ， 但 方式 十 分 有 限 。 如 有 果 ^ 出 现在 正则 表达 陈 的 开头 ， 它 吏 
是 匹配 行 开 头 的 元 字符 。 人 否则 它 束 不 是 一 个 元 字符 ， 而 只 是 一 个 普通 的 脱 字 符 。 同 样 ，$ 只 有 出 现在 正则 表 
达 式 的 末尾 时 才 被 当 作 元 字符 。 结 果 ， 用 户 没 法 使 用 endgl^start | 这样 的 表达 式 。 不 过 这 不 要 紧 ， 因 为 
grep 不 文 持 多 选 结构 。 

元 字符 的 作用 规则 也 很 重要 。 例 如 ，grep “的 最 大 问题 或 许 在 于 ， 星 号 无 法 用 来 限定 括 亏 内 的 子 表达 
式 ， 而 只 能 用 于 限定 普通 的 字符 、 字 符 组 ， 或 者 点 号 。 所 以 ， 在 grep 中 ， 括 号 的 作用 仅 限 于 捕获 已 匹配 的 
文本 ， 而 不 能 用 来 进行 普通 的 分 组 。 实 际 上 ， 菜 些 早期 版 本 的 grep 其 至 不 支持 括 写 网 套 。 

Grep 的 发 展 历程 

尽管 今天 的 许多 系统 都 有 对 应 的 grep， 但 你 会 注 曹 到， 本 书 中 提 到 grep 时 使 用 的 都 古 过 去 时 态 〈 译 注 
1) 。 过 去 时 对 应 旧版 本 所 属 的 流派 ， 它 们 的 历史 都 超过 30 年 了 。 在 这 上 段 时 间 中 ， 技 术 在 不 断 进步 ， 旧 的 程 
序 也 会 加 入 新 的 特性 ，grep 也 不 例外 。 

在 最 老 版 本 的 grep 之 上 ，AT&T 的 贝尔 实验 军 加 入 了 一 些 新 的 特性 ， 例 如 从 lex 程 序 中 信和 鉴 来 的 min， 
max}j。 他 们 还 修正 了 -y 选 项 ， 早 期 版 本 的 grep 通 过 -y 进 行 不 区 分 大 小 写 的 匹配 ， 但 此 功能 并 不 正常 。 同 
时 ，Berkeley 的 人 加 入 了 表示 单词 开头 和 结束 的 元 字符 ， 把 -y 改 为 -i。 不 等 的 是 ， 星 号 或 其 他 量词 仍然 无 法 
作用 于 括号 内 的 表达 式 。 

Egrep 的 及 展 历 程 

此 时 ，Alfred Aho《〈 同 样 是 AT&T 的 贝尔 实验 室 ) 写 出 了 egrep， 它 提供 了 第 1 章 介绍 的 各 种 元 字符 中 的 
大 部 分 元 字符 。 更 重要 的 是 ， 它 以 一 种 全 然 不 同 〈 但 总 的 来 说 更 好 ) 的 方式 实现 了 这 些 功能 。 不 但 加 上 了 
+ 和 ? | ， 还 容许 量词 作用 于 括号 内 的 表达 式 ， 这 大 大 增强 了 egrep 的 表达 能 
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egrep 也 不 够 完美 一 有 时 候 它 能 匹配 ， 但 不 会 显示 结果 ， 而 且 它 缺乏 菜 些 当今 流行 的 特性 。 不 过 无 论 如 
何 ， 它 都 比 grep 有 用 得 多 。 

其 他 工具 的 发 展 历 程 

就 在 egrep 演 变 的 同时 ， 其 他 程序 ， 例 如 awk、lex 和 sed， 也 在 按 各 自 的 脚步 前 进 。 通 常 ， 开 发 人 员 会 把 
菏 个 程序 中 目 己 喜欢 的 特性 添加 到 其 他 程序 中 。 有 时 候 ， 结 果 并 不 上 尽 如 人 意 。 例 如 ， 如 来 要 在 grep 中 增加 
对 +| 的 支持 ， 就 不 能 直接 使 用 ‘+'， 因 为 长 期 来 以 来 在 ”grep 中 和 +’ 都 不 是 元 字符 ， 突 然 进行 这 种 修改 会 让 
大 家 感到 不 适应 。 因 为 \+’ 可 能 是 外 ep 的 用 户 在 正 篆 情况 下 不 会 得 入 的 ， 把 它 作 为 " 重 现 一 次 或 多 次 ”的 元 字 
侍 可 能 更 合适 。 

AIR, USUI PEt arr bug. Ah HEI ee, BTS MERE A Ja I PA GTI HY 
各 个 细微 的 方面 ， 几 乎 都 没有 什么 文档 ， 所 以 新 的 工具 软件 要 么 形成 了 目 己 的 流派 ， 要 么 答 试 模仿 其 他 工 
上 其， 提供 “看 来 相似 ”的 功能 。 

这 一 切 ， 加 上 漫长 的 发 展 史 ， 众 多 的 程序 员 ， 结 果 就 是 巨大 的 谜 局 ( 注 5) 。 

POSIX 一 一 标准 化 的 符 试 

诞生 于 1986 年 的 POSIX 是 Portable Operating System Interface (可 移植 操作 系统 接口 ) 的 缩写 ， 它 是 一 系 
列 标准 ， 确 你 操作 系统 之 间 的 移植 性 。 访 标准 的 某 些 部 分 关乎 正则 表达 式 和 使 用 他 们 的 传统 工具 ， 所 以 值 
得 我 们 关注 。 不 过 ， 本 书 涉及 的 各 种 流派 无 一 严格 地 如 守 了 所 有 的 相关 规定 。 为 了 厘清 正则 表达 式 的 混乱 
局 面 ，POSIX 把 各 种 常见 的 流派 分 为 两 大 类 : Basic Regular Expressions (BREs) 和 Extended Regular 
Expressions (EREs) 。POSIX 程 序 必须 支持 其 中 的 任意 一 种 。 下 页 的 表 3-1 简 要 介绍 了 这 两 种 流派 的 元 字 
FF o 

POSIX 标 准 的 主要 特性 之 一 是 locale， 它 是 一 组 关于 语言 和 文化 传统 一 一 例如 日 期 和 时 间 的 格式 、 货 币 
币值 、 和 字符 编码 对 应 的 意义 等 一 一 的 设 定 。locals 的 目的 在 于 让 程序 变 得 国际 化 。 它 们 不 是 正则 表达 式 相 关 
的 概念 ， 尺 管 它 们 会 影响 正则 表达 式 的 使 用 。 举 例 来 说 ， 工 作 于 Latin-1 编 码 〈 也 称 为 SO-8859-1”) 之 中 
时 ，a 和 A《〈 分 别 对 应 十 进 制 编码 224 和 160) 也 被 认为 是 “字符 ”， 任 何不 区 分 大 小 写 的 正则 表达 式 都 会 认为 
这 两 个 字符 是 相等 的 。 














表 3-1: POSIX 正 则 表达 式 流派 概览 





正则 表达 式 特 性 BREs EREs 
RES bed, he / 
分 组 NCA) (=) 
量词 可 否 作用 于 括号 V 
ATA 
ur 1 


妨 一 个 例子 是 w， 通 党 用 于 表示 “构成 单词 的 字符 ”( 在 很 多 流派 中 ， 它 等 价 于 [a-zA-Z0-9_]) 。 这 个 特 
性 并 不 是 POSIX 中 必须 的 ， 但 容许 出 现 。 如 果 支 持 的 话 ，\w 就 能 对 应 locale 中 的 所 有 字母 和 数字 ， 而 不 仅 仪 
限于 ASCII 编 码 的 字符 和 数字 。 

如 果 程 序 文 持 Unicode， 那 么 关于 locale 的 问题 束 极 大 地 简化 了 。Unicode 的 详细 讨论 从 106 页 开始 。 

Henry Spencer 的 正则 表达 式 包 

同样 是 在 1986 年 ， 发 生 了 于 一 件 更 重要 的 事情 ，Henry Spencer 发 布 了 用 C 语 言 写 的 正则 表达 式 包 ， 这 
个 包 可 以 坚 无 困难 地 置 入 其 他 程序 中 一 一 这 在 当时 具有 开创 性 的 音义。 每 一 个 使 用 Henry 的 包 的 程序 
的 人 确 存 在 很 多 一 一 都 属于 相同 的 流派 ， 除 非 程 序 的 作者 费 尽 周折 去 修改 。 

Perl 的 发 展 历 程 


ZAZE, Lary Wall 开始 开 有 一 种 工具 , 王 岂 就 是 日 后 的 Perl 语 言 他 的 patch 程 序 已 经 大 大 促进 二 
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1987 年 12 月 ，Larry 发 布 了 Perl Version 1。Perl 很 局 引起 了 关注 ， 因 为 它 故 合 了 其 他 语言 的 众多 特性 ， 
但 指 同 一 个 明确 的 目的 : 吏 是 我 们 日 前 所 说 的 “实用 Cuseful) ”。 

Perl 的 特性 中 值得 一 提 的 是 ， 它 提供 了 传统 上 只 有 专用 工具 sed 和 awk 才 提供 的 正则 表达 式 操作 符 一 一 
这 在 明 用 脚本 语言 中 是 个 首创 。 正 则 引 敬 的 代码 来 自 一 个 早期 的 项 目 Larry Hr fel bse CHP AY IE 
则 表达 式 代 码 来 自 James Gosling 的 Emacs (/E6) ) 。Perl 的 正则 流派 ， 用 当时 的 标准 衡量 是 很 强大 的 ， 但 
功能 不 如 今天 那样 齐全 。 它 主要 的 问题 在 于 ， 最 多 只 能 文 持 9 组 括号 ，9 Shea, RN, FES 
内 不 容许 出 现 || ， 也 不 能 进行 不 区 分 大 小 写 的 匹配 ， 不 支持 字符 组 中 的 \w (完全 不 支持 \d 和 \s) 。 也 不 支 
持 区 间 量 词 {min,，max}。 

Perl 2 发 布 于 1988 年 6 月 。Larry 完 全 放弃 了 原 有 的 正则 表达 式 人 代码， 而 采用 了 前 面 提 到 过 的 Henry 
Spencer 的 正则 表达 式 包 的 增强 版 。 插 号 的 数目 仍然 只 有 9 个 ， 但 是 括号 中 可 以 使 用 '|， 了 。\d 和 \s 的 支持 也 
加 了 进来 ，\w 现 在 可 以 匹配 下 画 线 了 ， 从 这 时 开始 ，\w 能 够 匹配 Perl 的 变量 名 中 容许 出 现 的 字符 。 此 外 ， 
字符 组 之 内 也 可 以 出 现 元 字符 〈 表 示人 个 定 的 元 字符 、\D、\W 和 \S， 也 可 以 文 持 ， 但 不 能 使 用 在 字符 组 内 
部 ， 而 且 总 在 有 些 情 况 下 无 法 正 第 工作 ) 。 很 重要 的 一 点 是 ， 添 加 了 /i 量词 ， 能 够 进行 不 区 分 大 小 写 的 区 
Hie 

Perl 3 发 布 于 一 年 多 以 后 的 1989 年 10 月 。 它 添加 了 /e 量 词 ， 这 样 极 大 地 增强 了 替换 运算 符 的 能 力 ， 同 时 
修正 了 之 前 版 本 中 的 一 些 与 回 济 相 天 的 bug。 也 添加 了 {min，max} 区 间 量 词 。 虽 然 很 不 驻 ， 这 些 量词 不 能 
保证 在 任何 情况 下 都 可 以 正常 工作 。 还 有 ， 这 时 候 Perl 的 正则 引擎 本 不 应 该 停留 在 只 处 理 8 位 编码 数据 的 
水 平 ， 但 是 面 对 非 ASCII 输 入 时 ， 会 产生 无 法 预料 的 结果 。 

Perl 4 的 友 布 是 在 一 年 半 以 后 ，1991 年 3 月 ， 在 接 下 来 的 两 年 间 ，Perl 4 一 有 在 改进 ， 耻 a 到 1993 年 2 月 友 
布 最 终 升 级 。 到 此 时 ， 之 前 的 bug 已 经 修正 ， 原 有 的 限制 也 被 突破 (MD 之 类 可 以 应 用 在 字符 组 中 ， 而 括号 的 
数目 也 不 再 有 限制 )》， 正 则 引擎 也 花 了 很 多 功夫 来 优化 ， 不 过 真正 的 突破 是 在 1994 年 。 

Perl 5 正式 发布 于 1994 年 10 月 。 这 一 版 的 Perl 经 历 了 了 全面 的 修整 ， 在 各 个 方面 痢 比 原来 强 上 许多 。 束 正 
则 表达 式 来 说 ， 它 进行 了 更 多 的 内 部 优化 ， 添 加 了 少量 元 字符 AGH a AARIKE 130) 、 非 捕获 
的 括号 C=45) 、 忽 略 优 先 (lazy) 的 量词 C141) 、 顺 序 环视 功能 (全 60) ， 以 及 /x 量词 C72) GE 
7D. 6 

这 些 狐 增 功 能 的 意义 并 不 限于 功能 本 号， 更 午 要 的 是 ， 这 些 “ 新 增 ” 的 修改 使 正则 表达 式 本 里 成 为 一 种 
强大 的 编程 语言 ， 并 为 它 提 供 了 进一步 的 发 展 空 间 。 

新 增 的 非 捕获 型 插 号 和 顺序 环视 结构 都 需要 新 的 表达 方式 。 而 CL. <A... pA 
了 含义 ， 所 以 Larry 采 用 了 我 们 今天 使 用 的 〈? :表示 法 。 这 个 表示 法 并 不 好 看 ， 不 过 在 之 前 的 Perl 正 则 表达 
式 中 这 有 是 不 合 规则 的 组 合 ， 所 以 添加 起 来 完全 没有 障碍 。Larry 也 预见 到 ， 将 来 可 能 还 需要 新 增 其 他 的 功 
fe, MEEI C? ?之 后 的 字符 做 了 限制 ， 这 样 束 能 保留 菜 些 字符 ， 用 于 将 来 更 多 的 功能 。 

之 后 的 各 版 Perl 越 来 越 健壮 ， 错 误 越 来 越 少 ， 内 部 优化 越 来 越 棱 ， 添 加 了 越 来 越 多 的 新 特性 。 我 相 
信 ， 本 书 的 第 一 成 也 为 此 做 了 小 小 的 贡献 ， 因 为 副 人 研究 和 测试 了 正则 表达 式 相 关 的 特性 ， 并 将 结果 告知 
Larry 和 Perl Porters group， 为 改进 提供 了 反馈 。 

后 来 添加 的 新 特性 包括 逆序 环视 功能 C= 60) ，“ 固 化 ?分 组 “atomic”grouping 人 139) ， 和 Unicode 文 
持 。 新 添加 的 条 件 判断 结构 更 是 把 正则 表达 式 提 升 到 了 一 个 新 的 层次 CF 140) ， 它 容许 用 户 在 正则 表达 式 
中 进行 if-then-else 的 条 件 判 断 和 控制 。 如 果 这 些 还 不 够 强大 的 话 ， 狐 的 结构 其 至 容许 程序 员 在 正则 表达 式 
rt Perl (RI, IEW eer UAE CAS -Z a FER ARATE C327) 。 本 书 中 使 用 的 Perl 的 版 本 
75.8.8 « 

流派 的 部 分 整合 

上 其 有 先 见 之 明 的 Perl 5 完全 站 合 了 互联 网 革命 的 节拍 。Perl 的 初 谚 是 文本 处 理 ， 而 Web 页 的 生成 其 实 正 
Fe CASA SH, Ar Perlite kA st AR Webster With a. Perl) Sexi, FESR OCA IE UU te xe SOE o 

FAIS BFF A RAADSMAN, ZR EEE EGE Perl” (Perl compatible) 的 正则 表达 
式 包 出 现 了 。Tcl、Python、.NET、Ruby、PHP、C/C++ 都 有 各 自 的 正则 表达 式 包 ，Java 语 言 中 还 有 多 个 正 
则 表达 式 包 。 

另 一 种 形式 的 整合 始 于 1997 年 〈 诸 巧 的 是 ， 本 书 的 第 一 版 也 在 当年 面世 ) ， 当 时 Philip Hazel 开 发 了 
PCRE， 这 是 一 套 兼 容 Perl 正则 表达 式 的 库 ，PCRE 的 正则 引擎 质量 很 高 ， 全 面 仿制 Perl 的 正则 表达 式 的 语法 
和 语义 。 其 他 的 开发 人 员 可 以 把 PCRE 整合 到 目 己 的 工具 和 语言 中 ， 为 用 户 提供 丰 曙 而 且 极 其 表现 力 〈 也 
是 众所周知 ) 的 各 种 正则 功能 。 许 多 流行 的 软件 都 使 用 了 PCRE， 例 如 PHP、Apache “2、Exim、Postfixz 和 
Nmap《〈 注 8) 。 1100 Linuxi O www.linuxidce.com [| [] 
































本 书 对 应 的 版 本 
表 3-2 列 出 了 本 书 中 使 用 的 工具 和 库 的 版 本 信息 。 更 老 的 版 本 可 能 功能 更 少 ，bug 更 多 ， 新 的 版 本 则 会 
提供 更 多 的 特性 ， 并 修正 之 前 的 bug( 当 然 也 可 能 多 出 新 的 bug》。 
表 3-2: 本 书 中 提 到 的 一 些 工具 的 版 本 





GNU awk 3.1 java.util.regex (JDK 1.5, 也 5.0) Procmail 3.22 
GNU egrep/grep 2.5.1 NET Framework 2.0 Python 2.3.5 
GNU Emacs 21.3.1 PCRE 6.6 Ruby 1.8.4 
flex 2.5.31 Perl 5.8.8 GNU sed 4.0.7 


MySQL 5.1 PHP (preg routine) 5.1.4/4.4.3 Tcl 8.4 





BYEN Be 


At a Glance 

我 们 用 一 张 表格 来 比较 常见 工具 软件 在 几 方 面 的 功能 ， 以 便 理 解 仍 然 存 在 的 差异 。 表 3-3 提 供 了 若干 
工具 软件 的 正则 表达 式 所 属 流派 在 各 方面 的 简要 信息 。 

其 他 书籍 通常 在 比较 各 款 工具 软件 时 ， 也 会 包含 表 3-3 之 类 的 表格 。 但 是 ， 这 张 表 只 是 冰山 一 角 一 一 列 
出 的 每 一 种 特性 的 背后 ， 都 有 许多 重要 的 知识 。 

最 重要 的 是 程序 会 不 断 变化 。 举 例 来 说 ， Ta 以 前 是 不 文 持 反 同 引 用 和 单词 分 前 从 的 ， 但 是 现在 支持 。 
最 开始 ， 用 来 表示 单词 分 界 符 的 是 难看 的 [: <: ] 和 [: >: J ee 尽管 这 种 表示 法 已 经 废弃 ， 
取代 它 的 是 后 来 添加 的 wm、 MM 和 \y“〈 单 词 起 始 、 单 词 结束 ， 或 者 两 者 皆 

同样 ，grep 和 egrep 并 没有 单一 的 作者 ， 只 要 愿意 ， A a D, B EE 修改 到 符合 到 作者 期 望 的 
任何 流派 。 人 人 都 希望 按照 自己 的 意愿 来 ， 人 性 就 是 如 此 例如， 许多 常用 工具 的 GNU 版 本 ， 比 其 他 版 本 
更 强大 ， 也 更 健壮 ) 。 











表 3-3: 在 干 稼 用 工具 的 Elavor 的 〈 非 常 ) 简要 


| eorep package 
A, A Be De C V 
Pep wwe fee ee 
(Bam p T py V 
单词 分 界 符 | |\<> ibi, \B \b, \B 
\w, \W yl V 
anma |IV LV lv | vv lv 
W 表示 支持 
或 许 与 列 出 的 特性 一 样 重要 的 是 流派 之 间 的 许多 细微 〈《 有 些 并 非 细 微 ) 差别 。 从 表格 来 看 ， 
Perl、.NET 和 Java 的 正则 表达 式 似 乎 是 一 样 的 ， 而 实际 情况 却 远 不 是 这 样 。 针 对 表 3-3， 读 者 可 能 提出 的 
问题 包括 : 
e 性 写 之 类 的 量词 能 耕作 用 于 括号 之 内 的 子 表 达 式 ? 
点 号 能 否 匹 配 换 行 符 ? 排除 型 字符 组 能 否 匹 配 换行 符 ? 以 上 两 者 能 否 匹 配 NUL 字符 ? 
e 行 锚 点 〈line anchor) 是 名 符 其 实 的 吗 ( 例 如 ， 他 们 能 否 识 别 目标 字符 串 内 部 的 换行 符 ) ? 它们 算 正 
则 表达 式 中 的 基础 级 别 (first-class) HITI? 还 是 只 能 应 用 在 某 些 结构 中 ? 
e 字 符 组 内 部 能 出 现 转 义 字符 吗 ? nh a) ant 年 出 现 ! T 
SEERE? MEE WEEE E nA UARA] Mumerinyxidccom 0 O 











呢 ) ? 

e 如 果 容 许 反 向 引用 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 反 向 引用 能 顺利 进行 吗 ? 在 极端 的 情况 下 ， 反 
向 引用 的 “行为 * 有 意义 吗 ? 

e 是 否 可 以 出 现 八 进 制 的 转 义 字符 \123? 如 果 是 ， 怎 么 区 分 它 和 反 向 引用 呢 ?” 十 六 进 制 的 转 义 字符 呢 ? 
这 种 支持 是 正则 引擎 提供 的 ， 还 是 由 其 他 工具 提供 的 ? 

e\w 只 支持 数字 和 字符 ， 还 是 包括 其 他 字符 ? CR 3-3 列 出 的 支持 \w 的 工具 对 \w 有 不 同 的 解释 ) 。 不 同 
的 单词 分 界 符 元 字符 对 构成 “单词 分 界 符 ” 的 字符 的 定义 不 一 样 ，\w 是 否 与 它们 保持 一 致 ? 它们 是 按照 locale 
的 定义 呢 ， 还 是 支持 Unicode? 

即使 表 3-3 这 样 的 介绍 这 样 简单 ， 我 们 仍然 必须 记得 这 些 问题 。 如 果 你 能 意识 到 ， 在 看 起 来 光鲜 的 外 表 
下 面 潜藏 着 许多 问题 ， 就 容易 保持 清醒 的 头脑 来 应 付 它 们 。 

在 本 章 开头 我 们 已 经 提 到 ， 许 多 问题 只 是 语法 的 差异 ， 但 也 有 许多 并 非 如 此 。 比 方 说 ， 了 解 到 egrep 的 
(JulJuy) | 在 GNU Emacs 中 必须 写成 、 Jul\July\) | 之 后 ， 你 或 许 会 认为 所 有 的 问题 都 是 这 样 ， 但 事 
实 并 非 如 此 。 在 匹配 尝试 过 程 中 的 语义 差异 (或 者 ， 至 少 是 看 起 来 是 在 匹配 尝试 过 程 中 的 ) 通常 被 忽视 ， 
但 极其 重要 的 问题 是 ， 它 也 解释 了 为 什么 两 个 看 起 来 一 样 的 表达 陈 会 获得 帘 然 不 同 的 结果 : 一 个 总 是 匹 
配 5Jul， 即 使 目标 文本 是 July'。 这 些 看 起 来 毫 无 区 别 的 语义 也 解释 了 ， 为 什么 两 个 顺序 相反 的 正则 表达 
st: [ Quyu | 和 下 Guly\Wul\) ) 能 够 取得 同样 的 匹配 结果 。 其 实 ， 整 个 下 一 章 都 在 讲解 这 类 问题 。 

当然 ， 一 款 工具 软件 能 够 利用 正则 表达 式 实现 的 功能 ， 通 常 比 它 所 属 的 正则 流派 更 重要 。 例 如 ， 就 算 
Perl 的 正则 表达 式 功 能 不 及 egrep， 在 使 用 正则 表达 式 时 ，Perl 所 具有 的 简便 性 却 更 有 价值 。 我 们 会 在 本 章 逐 
个 介绍 各 种 特性 ， 并 在 后 面 各 章 深入 讲解 几 种 编程 语言 。 











[| 日 日 Linux[| || www.linuxide.com [] [] 


正则 表达 式 的 注意 事项 和 处 理 方式 


Care and Handling of Regular Expressions 

本 章 开 头 列 出 的 第 二 点 需要 注意 的 束 是 : 正则 表达 式 的 句法 规则 (syntactic packaging) ， 它 告诉 应 用 
程序 :“ 嘿 ， 这 儿 有 一 个 正则 表达 式 ， 我 需要 你 做 这 些 ”。egrep 是 一 个 简单 的 例子 ， 因 为 正则 表达 式 是 作为 
命令 行 参数 传 过 去 的 。 其 他 的 “语法 诀 罕 (syntactic sugar) ”， 例 如 我 在 第 1 章 坚 持 使 用 的 单 引 号 ， 是 因为 考 
虑 到 shell， 而 不 是 egrep。 复 杂 的 系统 ， 例 如 程序 设计 语言 中 的 正则 表达 式 ， 需 要 更 多 的 包装 ， 系 统 才能 知 
道 哪些 部 分 是 正则 表达 式 ， 需 要 如 何 处 理 。 

下 一 步 是 考 穴 我 们 能 够 对 匹配 结果 进行 的 操作 。 同 样 ，egrep 在 这 方面 很 简单 ， 因 为 它 做 的 都 是 同样 的 
事情 《显示 包 舍 匹配 文本 的 行 ) ， 但 是 ， 我 们 在 前 一 章 的 开头 已 经 说 过 ， 真 正 有 意义 的 是 更 复杂 的 操作 。 
其 中 最 基本 的 是 匹配 〈 检 查 一 个 正则 表达 式 是 售 能 匹配 一 个 字符 串 ， 或 者 从 字符 串 中 提取 信息 ) ， 以 及 奉 
找 和 和 蔡 换 ， 根 据 匹 配 的 结果 修改 字符 串 。 这 些 操作 可 以 以 多 种 形式 进行 ， 不 同 的 语言 对 此 也 有 不 同 的 规 
XE 

一 般 来 说 ， 程 序 设计 语言 有 3 种 处 理 正 则 表达 式 的 方式 : 集成 式 (integrated) 、 程 序 式 (procedural) 
ANA TeX ATK Cobject-oriented) 。 在 第 一 种 方式 中 ， 正 则 表达 式 是 直接 内 建 在 语言 之 中 的 ，Perl 吕 是 如 
此 。 但 是 在 其 他 两 种 方式 中 ， 正 则 表达 式 不 属于 语言 的 低级 语法 。 相 反 ， 普 通 的 图 数 接收 普通 的 字符 串 ， 
把 它们 作为 正则 表达 式 进 行 处 理 。 由 不 同 的 函数 进行 不 同 的 、 关 系 到 一 个 或 多 个 正则 表达 式 的 操作 。 大 多 
数 语 言 〈 不 包括 Perl) 采用 的 都 是 这 两 种 方式 之 一 ， 包 括 Java、.NET、Tcl、Python、PHP、Emacs、lisp 和 和 
Ruby。 
































集成 式 处 理 
Integrated Handling 
我 们 已 经 看 过 Perl 的 集成 式 处 理 方法 ， 例 如 第 55 页 的 例子 : 


if ($line =~ m/^Subject: (.*)/i) 1 
Ssubject = §$1; 





} 

为 清楚 起 见 ， 我 用 冬 体 标注 变量 名 ， 正 则 表达 式 相 关 的 部 分 则 用 粗 体 标注 ， 正 则 表达 式 本 号 用 下 男 线 
标注 。Perl 会 把 正则 表达 式 '^Subject: - Cx) | 应 用 到 $line 保存 的 文本 中 ， 如 果 能 够 匹配 ， 则 执行 下 面 
的 程序 段 。 其 中 ， 变 量 $1 代 表 括 号 内 的 子 表 达 式 匹配 的 文本 ， 将 它们 赋值 给 $subject。 

太一 个 集成 式 处 理 的 例子 是 把 正则 表达 式 作 为 配置 文件 的 一 部 分 ， 例 如 procmail (Unix 下 的 一 个 邮件 
处 理 程序 ) 。 在 配置 文件 中 ， 正 则 表达 式 用 于 将 邮件 信息 发 布 到 对 应 的 处 理 程序 中 。 这 个 例子 比 Perl 更 人 简 
单 ， 因 为 不 需要 指明 操作 对 象 〈《 邮 件 信息 ) 。 

这 两 个 例子 背后 的 原理 要 复杂 一 些 。 集 成 式 处 理 方法 减轻 了 程序 员 的 负担 ， 因 为 它 隐 藏 了 一 些 工作 ， 
例如 正则 表达 式 的 预 人 处理 ， 准 备 风 配 ， 应 用 正则 表达 式 ， 返 回 结果 。 省 略 这 些 操 作 减 轻 了 常见 任务 的 完成 
难度 ， 不 过 我 们 之 后 将 会 看 人 天， 有些 情况 下 ， 这 样 处 理 反 而 更 慢 ， 更 复 林 。 

不 过 ， 在 次 入 细节 之 前 ， 我 们 先 打 量 打量 其 他 的 处 理 方式 ， 然 后 绸 来 揭示 这 些 被 隐 包 的 步骤 。 


程序 式 处 理 和 耐 问 对 象 式 处 理 


Procedural and Object-Oriented Handling 

程序 式 处 理 和 面向 对 象 式 处 理 非常 相似 。 这 两 种 方式 下 ， 正 则 功能 不 是 由 内 建 的 操作 符 来 提供 ， 而 是 
由 普通 函数 函数 式 ) 或 构造 函数 及 方法 〈 面 网 对 象 陈 ) 来 提供 的 。 这 种 情况 下 ， 并 没有 专属 于 正则 表达 
式 的 操作 从， 只 有 平 第 的 字符 串 ， 普 通 的 函数 、 构 千 函 数 和 方法 把 这 些 字 从 串 作 为 正则 表达 式 来 处 理 。 

下 面 几 节 给 出 了 几 个 Java、VB.NET、PHP 和 Python 的 例子 。 

Java 中 的 正则 处 理 

现在 来 看 “Subject” 例 子 在 Java 中 的 实现 方式 ， 使 用 Sun 提 供 的 java.utilregex 包 《第 8 章 详 细 介 绍 Java) 。 


[| 日 日 Linux[| [| www.linuxide.com [| [] 

















import java.util.regex.*; // 这 样 使 用 regex 包 中 的 类 更 加 容易 


O Pattern r = Pattern.compile ("^Sujbcet: (.*)Y, Pattern.CASE INSENSITIVE) ; 
Matcher m = r.matcher (line); 
+ if (m.find()) { 
天 subject = m.group(1); 
} 
BAI IA FS RAPE AE Be ZA, FAS ETE FETA SUAS OA, «RB AEE EIA SUA. HE GASH 
说 ， 是 用 下 男 线 标 注 表示 作为 正则 表达 式 处 理 的 普通 的 字符 串 。 
这 个 类 说 明了 面 回 对 象 式 人 处理 方法 ， 它 使 用 Sun 提 供 的 java.util.regex 包 的 两 个 类 
其 中 执行 的 操作 有 : 
ð 检查 正则 表达 式 ， 将 它 编译 为 能 进行 不 区 分 大 小 匹配 的 内 部 形式 (internal form) ， 人 得 到 一 
个 “Pattern” 对 象 。 
e 将 它 与 僻 风 配 的 文本 联系 起 来 ， 得 到 一 个 “Matcher” 对 象 。 
= 应 用 这 个 正则 表达 式 ， 检 查 之 前 与 之 建立 联系 的 文本 ， 是 否 存 在 匹配 ， 返 回 结果 。 
z 如 末 存 在 下 配 ， 提 取 第 一 个 捕获 括号 内 的 子 表达 式 匹 配 的 文本 。 
任何 使 用 正则 表达 式 的 语言 都 需要 进行 这 些 操 作 ， 或 是 显 式 的 (explicitly) 或 是 隐 式 的 
(implicitly) > Perl aJi y KZH, Javak KILA IA N E e A ET o 
函数 式 处 理 的 例子 。 不 过 ，Java EIE y — E RARE EER (convenience functions) ”来 节 
ELFE. HP AE RRA AERAN IEMA ASTRA, ANEH ZIRT EREE. TEERAA EH 
ERE TIRAR R, MITEL, KERRAIN T H HA Pattern.matches C...) RŽ: 
if (! Pattern.matches("\\s*", line)) 


{ 


Pattern# Matcher. 




















// ... WR line RAZI 
} 

这 个 函数 包装 了 一 个 隐 式 的 “人..….$| 的 正则 表达 式 ， 返 回 一 个 Boolean 值 ， 说 明 它 是 否 能 够 匹配 输入 的 
字符 串 。Sun 的 package 同 时 提供 程序 式 和 面 同 对 象 式 的 处 理 方式 是 第 见 的 做 法 。 两 种 接口 的 又 别 在 于 便捷 
程度 (程序 式 人 处理 方式 在 完成 简单 任务 时 更 容易 ， 但 处 理 复 杂 任 务 则 很 厂 烦 〉、 功 能 (程序 式 处 理 方式 的 
功能 和 选项 通常 比 对 应 的 面 回 对 和 象 式 的 要 少 ) 和 效率 〈 在 任何 情况 下 ， 两 类 处 理 方 式 的 效率 都 不 同 第 6 
草 详 细 论 述 这 个 问题 ) 。 

" Sun 有 时 也 会 把 正则 表达 式 整 合 到 Java 的 其 他 部 分 ， 例 如 上 面 的 例子 可 以 使 用 string 类 的 matches 功 能 





if (! line.matches("\\s*", )) 
{ 
// ... 如 果 line 不 是 空 行 
} 
同样 ， 这 种 办 法 不 如 合理 使 用 面 癌 对 象 的 程序 有 效率 ， 所 以 不 适宜 在 对 时 间 要 求 很 高 的 循环 中 使 用 ， 
但 是 “随手 (casual) ”用 起 来 非常 方便 。 
VB 和 .NET 语 言 中 的 正则 处 理 
尽 害 所 有 的 正则 引 敬 都 能 执行 同样 的 基本 操作 ， 但 即使 是 采用 同样 方法 的 各 种 实现 方式 
(implementation〉 提 供给 程序 员 完 成 的 任务 ， 以 及 使 用 服务 的 方式 也 各 有 不 同 。 下 面 是 VB.NET 中 
的 “Subject” 例 子 (.NET 在 第 9 章 详 细 论 述 ): 





[| 日 Linux[| [|] www.linuxidc.com |] [] 


Imports System.Text.RegularExpressions ' 这 样 访问 正则 表达 式 的 类 会 更 方便 


Dim R as Regex = New Regex(" Subject: (.*)", RegexOptions.IgnoreCase) 
Dim M as Match = R.Match(line) 
If M.Success 
subject = M.Groups(1).Value 
End If 
SAIR, “ERA aval il, Ace. NET ER eM GA, BA m Be AEE. J 
什么 会 有 这 样 的 差 卉 ? PFA A AS EL Za} AEA RA OA SE oe Fp IA 
〈 稍 后 我 们 会 看 到 这 点 ) 。 
.NET 同 样 提 供 了 耕 干 程序 式 处 理 的 函数 。 下 面 的 代码 用 于 判断 空 行 : 
If Not Regex.IsMatch(Line, "*\s*S") Then 
"ol... 如 果 line 不 是 空 行 . . . 
End LE 
Java 的 Pattern.matches 函 数 会 自动 在 正则 表达 式 两 端 添 加 ^...$| ， 微 软 则 提供 了 更 为 一 般 的 函数 。 
Java 的 做 法 只 是 对 核心 对 象 的 简单 包 竣 ， 但 程序 员 需 要 使 用 的 字符 和 变量 更 少 ， 而 代价 只 是 一 点 点 性 能 
降 。 
PHP 中 的 正则 处 理 
下 面 是 使 用 PHP 的 preg 套 件 中 的 正则 表达 式 函 数 处 理 Subject, 的 例子 ， 这 是 纯粹 的 水 数 式 方法 (第 10 
章 详细 介绍 PHP) 。 
if (preg match('/*Subject: (.*)/i', $line, Smatches) ) 
SSubject = Smatches[1]; 
Python 中 的 正则 处 理 
最 后 我 们 来 看 Python 中 Subject| 的 例子 ，Python 采 用 的 也 是 面向 对 象 式 的 办 法 。 


import re; 

















R = re.compile("“Subject: (.*)", re.IGNORECASE) ; 
= R.search (line) 
LE M: 
subject = M.group (1) 
这 个 例子 与 我 们 之 前 看 过 的 非常 类 似 。 
Fe FF MAA] IM OR 
PIES ASF] AY tet SR AS TRY ES A? 可 能 有 语言 本 身 的 原因 ， 不 过 最 重要 的 因素 还 是 正则 软件 包 的 
开 上 有 友人 员 的 思维 和 技术 水 准 。 举 例 来 说 ，Java 有 许多 正则 表达 式 包 ， 因 为 这 些 作者 都 希望 提供 Sun 未 提供 
的 功能 。 每 个 包 痢 有 目 己 的 强项 和 弱项 ， 不 过 有 趣 的 是 ， 每 个 软件 包 的 功能 设 定 痢 不 一 样 ， 所 以 Sun 最 终 
决定 目 己 提供 正则 表达 式 包 。 
太一 个 天 于 这 种 差异 的 例子 是 PHP, PHP 包含 了 三 种 完全 独立 的 正则 引擎 ， 每 一 种 都 对 应 一 父 目 己 的 
图 数 。PHP 的 开 肥 人员 在 开 及 过 程 中 ， 因 为 对 原 有 的 功能 不 满意 ， 诡 加 新 的 软件 包 和 对 应 的 接口 国 数 套件 
来 升级 PHP 核心 (一 般 认为， 本 书 讲 解 的 “preg” 套 件 是 最 优秀 的 )。 


APRM P Hh 


A Search-and-Replace Example 
“Subject 的 例子 太 简 单 ， 还 不 足以 说 明 3 种 方法 之 间 的 差异 。 在 本 节 我 们 将 看 到 更 复杂 的 例子 ， 它 进 一 
步 揭示 了 不 同 处 理 方式 在 设计 上 的 差异 。 [| O U U Linuxi |] www.linuxidc.com |] [] 





在 前 一 章 ， 我 们 看 到 了 在 Perl 中 利用 奉 找 和 符 换 将 E-mail 地 址 转换 为 超 链接 的 例子 C73) : 
Stext =~ S{ 
\b 
# 把 捕获 的 地 址 保存 到 $1 
( 
\w[-.\w]* # username 
@ 
[-\w]+(\.[-\w]+)*\. (com|edu|info) # hostname 
) 
\b 
}{<a href="mailto:$1">$1</a>}gix; 


Perl’) ARA E FRB ETT ERE RN, Eme, BASE A ee ET. AAS BSNS 
Bere fe H tx CAS WAS ESATA. GORA EIB OUR, KIFER DE, Aa RR ABOU 
量 ， 驳 得 把 人 符 换 结 果 回 传 给 原 变 量 。 下 面 给 出 了 一 些 例子 。 

Java} H AERA E He 

下 面 是 使 用 Sun 提 供 的 java.util.regex 进 行 查 找 - 蔡 换 的 例子 : 


import java.util.regex.*; // 一 次 性 导入 所 有 需要 用 到 的 类 


Pattern r = Pattern.compile ( 








"AND (R 
"# 把 捕获 的 地 址 保存 到 $1 ... Ll 
"g WT 
”VY Nl # username \ 
" g ae 
= [Vea . [= SNe ES (Coml ada | rat) # hostname \n"+ 
本 Yh + 
"NNB \n", 


Pattern .CASE INSENSITIVE | Pattern .COMMENTS ; 
Matcher m = r.matcher(text); 
text = m.replaceAll ("<a href=\"mailto:$1\">$1</a>"); 


TATE, RPA EN BEDS AD Fe AY, MA, QR BA VR AS BP FE A SCARS FEB RAE TE I 
IATL, Nw 就 必须 写成 Nw’。 在 调试 时 ，System.out.println (rpattem ©) ) 可 以 显示 正则 函数 确切 接收 
到 的 正则 表达 式 。 我 在 这 个 正则 表达 却 中 包括 换行 符 的 原因 是 ， 这 样 看 起 来 很 清楚 。 另 一 个 原因 是 ， 每 个 
并 引入 一 段 注释 ， 直 到 访 行 结束 ， 所 以 ， 为 了 约束 注释 ， 必 须 设 定 茶 些 换行 符 。 

Perl 使 用 /g、Ai、A 人 之 类 的 符号 来 表示 特殊 的 条 件 〈 这 些 修饰 符 分 别 代表 全 局 替换 、 不 区 分 大 小 写 和 窝 
PSR RES 135) ，java.utilregex 则 使 用 不 同 的 函数 〈replaceAl 而 不 是 replace) ， 以 及 给 函数 传递 不 同 的 
标志 位 〈flag) 参数 〈 例 如 Pattern.CASE_INSENSITIVE 和 Pattern.COMMENTS) 来 实现 。 

VB.NET} HERA H IR 

VB.NET 的 程序 与 Java 的 类 似 : 





中 上 局 Dinux [|] www.linuxidce.com |] [] 


Dim R As Regex = New Regex _ 


( " \b “六 
" (2# 将 捕获 的 地 址 保存 到 $1 ...) 
" ( ii & __ 
" \w[-.\w] * (?# username) " & 
" Q "& 
" [-\w]+(\.[-\w]+)*\.(com|eduļinfo) (?# hostname) ai 
") = 
W \b W 


RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


text = R.Replace(text, "<a href=""mailto:${1}"">${1}</a>") 


因为 VB.NET 的 字符 串 文字 literal) 不 便于 操作 (它们 不 能 跨越 多 行 ， 也 很 难 在 其 中 加 入 换行 符 ，， 
长 一 点 的 正则 表达 式 使 用 起 来 不 如 其 他 语言 方便 。 为 一 方面 ， 因 为 收 不 是 VB.NET 中 的 字符 串 的 元 字符 ， 
这 个 表达 式 看 起 来 要 更 清楚 些 。 双 引号 是 VB.NET 字符 串 中 的 元 字符 ， 为 了 表示 这 个 字符 ， 我 们 必须 使 用 
两 个 紧 控 着 的 双 引 号 。 
PHP H H) AFRA E R 
下 面 是 PHP 中 的 理 找 和 和 荐 换 的 例子 : 
stext = preg replace('{ 
\b 
# 把 捕获 的 地 址 保存 到 $1 
( 


\w[-.\w]* # username 
@ 
[-\w]+(\. [-\w]+) *\. (com|edu]| info) # hostname 
) 
\b 
}ix', 
"<a href="mailto:$1">$1</a>', # replacement 字符 事 
Stext) ; 


就 像 Java 和 VB.NET 一 样 ， 查 找 和 蔡 换 操作 的 结果 必须 回 传 给 $text， 除 去 这 一 点 ， 这 个 例子 和 Perl 的 很 
相似 。 


其 他 语言 中 的 碍 找 和 桨 换 


Search and Replace in Other Languages 

Pm i BA E Re RLRE SEERA PR 

Awk 

Awk 使 用 的 是 集成 陈 处 理 方法 ，/regex/， 来 匹配 当前 的 输入 行 ， 使 用 ”var 一 .… 来 匹配 其 他 数据 。 你 可 
以 在 Perl 中 看 到 这 种 匹配 表示 法 的 影子 〈 不 过 ，Perl 的 蔡 换 操作 符 模 仿 的 是 sed) 。Awk 的 早期 版 本 不 文 持 
正则 表达 去 人 答 换 ， 不 过 现在 的 版 本 提供 了 sub ©...) 操作 和 从。 

sub(/mizpel/, " misspell " ) 

它 会 把 正则 表达 式 | mizpel) 应 用 到 当前 行 ， 将 第 一 个 匹配 奉 换 为 misspel。 请 注意 ， 在 Perl (和 sed) 中 
的 对 应 做 法 是 s/mizpel/misspell/。 

如 果 要 对 该 行 的 所 有 匹配 文本 进行 蔡 换 ，Awk 使 用 的 不 是 /g 修 饰 符 ， 而 是 另 一 个 运算 符 : 
gsub (/mizpel/, “misspell”) 。 


Tcl 0 O UO U Linux] [|] www.linuxidce.com |] [] 


Tcl 采 用 的 是 程序 式 处 理 方 法 ， 对 不 加 悉 Tcl 引 用 惯例 (quoting conventions) 的 人 来 说 可 能 很 迷惑 。 如 
果 我 们 要 在 Tcl 中 修正 错误 的 拼写 ， 可 以 这 样 : 
regsub mizpel Svar misspell newvar 
它 会 检查 变量 var 中 的 字符 串 ， 把 “mizpel| 的 第 一 处 匹配 替换 为 misspell， 把 替换 后 的 字符 串 存 入 变量 
newvar 〈 这 个 变量 并 没有 以 $ 开 头 ) 。Td 接收 的 第 一 个 参数 是 正则 表达 式 ， 第 二 个 参数 是 目标 字符 串 ， 第 
三 个 是 replacement 字符 串 ， 第 四 个 是 目标 变量 的 名 字 。Tcl 的 regsub 同 样 可 以 接收 可 能 出 现 的 标志 位 ， 例 
如 -all 用 来 进行 全 局 符 换 ， 而 不 是 只 答 换 第 一 处 匹配 文本 。 


regsub -all mizpel Svar misspell newvar 


同样 ，-nocase 选 项 告诉 正则 引擎 进 行 不 区 分 大 小 写 的 匹配 《〈 它 等 于 egrep 的 -i 参数 ， 或 者 Perl 有 的 /i 修饰 














GNU Emacs 

GNU Emacs〔 下 文中 简称 Emacs〉 是 功能 强大 的 文本 编辑 器 ， 它 可 以 使 用 elisp (Emacs lisp) 作为 内 建 
的 编程 语言 。 它 提供 了 正则 表达 式 的 程序 式 处 理 接口 ， 以 及 数量 众多 的 函数 来 提供 各 种 服务 。 其 中 主要 的 
一 种 是 “正则 表达 式 搜 有 过- 前进 (re-search-forward) ”， 接 收 参数 为 普通 字符 串 ， 将 它 作为 正则 表达 式 来 处 
理 。 然 后 从 文本 的 “当前 位 置 ? 开 始 搜索 ， 直 到 第 一 处 匹配 有 发生， 或 者 如 果 没 有 匹配 ， 吏 一 下 前 进 到 字符 串 
的 末尾 〈 用 户 调用 编辑 器 的 “正则 表达 式 搜索 (regexp search) ”的 功能 时 ， 就 会 执行 re-search-forward) 。 

如 表 3-3 C= 92) 所 示 ，Emacs 所 属 的 正则 流派 严重 依赖 反 斜 线 。 例 如 ， <\〈[a-z]+)N\ Cnt 
>]+>\) AN> | 是 查找 重复 单词 的 表达 式 ， 可 以 用 来 解决 第 1 章 的 问题 。 但 我 们 不 能 直接 使 用 这 个 正则 
表达 式 ， 因 为 Emacs 的 正则 引擎 不 能 识别 tt 和 \n。 不 过 Emacs 中 的 双 引 瑟 字 符 串 则 可 以 ， 它 会 把 这 些 标 记 转 
换 为 我 们 需要 的 制 表 符 和 换行 符 ， 传 给 正则 引擎 。 在 使 用 普通 字符 串 提 交 正 则 表达 式 时 ， 非 党 有 用 。 但 其 
缺陷 一 一 尤其 是 elisp 的 正则 表达 式 的 缺陷 在 于 ， 此 流派 过 分 依赖 反 斜 线 了 ， 最 终 得 到 的 正则 表达 陈好 
RIS TE. THEA TAER R: 

(defun FindNextDbl () 








"move to next doubled word, ignoring <*> tags" (interactive) 
(re-search-forward "\\<\\[a-z]+\\)\\(0\n \tl]\\I<[*>] #>\\) FAAL N AS] 
) 


这 段 程序 加 上 Cdefine-key global-map "\C-x\C-d" 'FindNextDbl) ， 就 可 以 使 用 *Control-x+Control-d" 来 
迅速 得 找 重 复 单 词 了 。 


注意 事项 和 处 理 方式 : 小 结 


Care and Handling:Summary 
RICE KBR, ABBAALBITLIR . WRIA ARS, FY RET 
请 不 必 担 心 。 学 习 任 何 特定 的 工具 软件 都 比 学 习 原 理 要 容易 。 
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Strings,Character Encodings,and Modes 

在 深入 讲解 第 见 的 各 类 元 字符 之 前 ， 还 需要 了 解 一 些 重 要 的 问题 : 作为 正则 表达 式 的 字符 串 ， 字 符 纺 
但 和 匹配 模式 。 

这 些 概念 并 不 复杂 ， 在 理论 和 实践 中 都 是 如 此 。 不 过 ， 对 其 中 的 大 多 数 来 资 ， 因 为 各 种 实现 方式 之 间 
存在 细小 差异 ， 我 们 很 难 预 先知 道 它 们 准确 的 实际 使 用 方式 。 下 一 节 遂 天 了 和 奉 干 你 将 面 对 的 币 见 问题 ， 以 
Be HE 5S AR EY |] pel 
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Strings as Regular Expressions 

这 个 概念 并 不 复杂 : 对 除 Perl, awk, sed 之 外 的 大 多 数 语言 来 说 ， 正 则 引擎 接收 的 是 以 普通 字符 串 形 
式 提供 的 正则 表达 式 ， 这 些 字符 串 文字 类 似 “AFrom: (.*) ”。 对 大 多 数 程序 员 ， 尤 其 新 入 行 的 程序 员 来 
说 ， 有 一 点 难以 理解 : 在 构造 作为 正则 表达 式 的 字符 串 时 ， 他 们 还 需要 留意 编程 语言 定义 的 字符 串 元 字 
IF o 

每 种 语言 的 字符 串 文 字 都 规定 了 目 己 的 元 字符 ， 有 些 语言 甚至 包 售 了 多 种 字符 串 文 字 ， 上 所 以 不 存在 普 
适 性 的 规则 ， 不 过 背后 的 概念 古 一 样 的 。 许 多 语言 的 字符 串 文 学 能 够 识别 转 义 序列 例如、\N 和 \x2A， 在 
生成 字符 串 对 应 的 数据 时 ， 会 正确 地 解释 这 些 记 号 。 与 正则 表达 式 相关 的 最 常见 的 一 点 就 是 ， 在 字符 串 文 
字 中 ， 必 须 使 用 两 个 紧 换 在 一 起 的 反 斜 线 才 能 表示 正则 表达 式 中 的 反 和 斜 线 。 人 例如， 为 了 表示 正则 表达 式 中 
的 “ni ， 必 须 在 字符 串 中 使 用 " \n " 。 


ETEA [[N = AS 
如 果 忘 了 添加 反 斜 线 ， 而 只 是 使 用 "mm " ， 在 大 多 数 语言 中 ， 结 果 Abas n 〈 译 注 2) 。 不 


[IN], 、 Ne 、 上、 
过 ， 事 实 上 ， 如 果 正 则 表达 式 是 宽松 排列 格式 的 /Xx 类 型 ， M 被 解释 为 空 ， ni 仍然 留 在 正则 表达 式 中 ， 
死 配 一 个 空 行 。 瑟 记 这 一 点 的 程序 员 真 该 打 。 和 下面 的 表 3-4 列 出 了 一 些 包 括 \t 和 \x2A (2A 是 “大 :符号 的 ASCII 
编码 ) 的 例子 。 表 格 中 的 第 二 对 例子 展示 了 忽略 字符 串 文 字 元 字符 会 导致 的 意外 结果 。 
表 3-4: 关于 字符 串 文 字 的 若干 例子 


字符 串 文字 “|“[NtNx2R]”|“[NNENNx2R]” “\\t\\x2A” 
字符 囊 的 值 “ey “T\t\x2A]’ NENx2R 
作为 正则 表达 式 | [Bgl* ] | | [ \ t\x2A]) \t\x2A) 
能 够 匹配 星 号 或 制 表 符 | 星 号 或 制 表 竺 任意 数目 的 制 表 符 | 制 表 竺 和 之 后 的 星 号 
在 /X 模式 下 星 号 或 制 表 符 | 星 号 或 制 表 符 错误 制 表 符 和 之 后 的 星 号 
语言 不同， 字符 串 文字 也 不 相同 ， 不 过 有 的 差异 大 到 连 亿 都 不 算 元 字符 。 例 如 ，VB.NETI 的 字符 串 文 
字 只 有 一 个 元 字符 ， 就 是 双 引 号 。 下 一 节 介 绍 了 几 种 第 用 语言 的 字符 串 文 字 。 无 论 规 定 如 何 ， 我 们 在 使 用 
时 都 不 要 忘记 考虑 “在 编程 语言 的 字符 串 处 理 结 束 之 后 ， 正 则 引擎 接收 到 的 是 什么 ? ” 
Java 的 字符 串 
Java 的 字符 串 跟 上 面 提 到 的 很 类 似 ， 它 们 由 双 引 号 标注 ， 反 和 斜 线 是 元 字符 。 支 持 常 见 的 字符 组 合 ， 例 
如 Ae GRA 、An HR 5 NV CBR BEAN) 。 字 符 串 中 出 现 未 获 支 持 的 反 和 斜 线 转 义 序列 会 出 
日 o 
VB.NET 的 字符 串 
VB.NET 中 的 字符 串 同 样 是 由 双 引 号 标注 的 ， 不 过 它们 与 Java 的 字符 串 有 很 大 差别 。VB.NET 的 字符 串 
只 能 识别 一 个 元 字符 : 两 个 连续 的 双 引 号 ， 代 表 字 符 串 中 的 双 引 号 。 例 如 "he said" "hi" "\ "的 值 就 是 
Ihe said "hi" TE 
C# WNT E 
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的 规定 。 我 们 刚刚 看 到 ，Visual Basich FE CSE IE. S ZAI, CHIR APS PPR AS IN FoR 
Fo 

CHMASSRCHPAUN MILA Sees, REH " " 而 不 古 \" RRRA S. Ait, CH HX 
持 “ 原 生字 符 串 (verbatim strings) ” G73) ， 其 形式 为 @@" ..." . BETIE ARETE BI RR, AS 
过 其 中 也 有 一 个 特殊 的 转 义 序列 : 一 对 双 引 号 表示 目标 字符 串 中 的 一 个 双 引 号。 也 束 是 说 ， 你 可 以 使 用 " 
\\t\\x2A "或 者 @ "\t\x2A " 来 生成 tx2A| 。 因 为 这 种 方式 很 简单 ， 一 般 都 用 @" ..." 的 原生 字符 串 来 表 
IREM KIS. 

PHP 的 字符 串 

PHP 也 提供 了 两 种 类 型 的 字符 串 ， 不 过 无 一 与 C 夫 中 的 相同 。 在 PHP 的 双 引 亏 字 符 吕 中 可 以 使 用 冲 见 的 
RRIF YI 例如 An ， 但 也 可 以 像 Perl 那样 进行 变量 插值 (77)， ， 还 可 以 使 用 特殊 的 序列 {...}， 把 
执行 花 括 号 内 代码 的 执行 结束 插入 字符 串 。 

PHP 的 双 引 二 字符 串 的 独特 性 在 于 ， 你 可 能 倾 回 于 在 正则 表达 式 中 加 入 多 余 的 反 冬 线 ， 不 过 PHP 的 男 
一 种 特性 能 够 缓解 这 种 现象 。 对 Java 和 C# 的 字符 串 文字 来 说 ， 衬 符 串 中 如 果 出 现 不 能 明确 识别 为 尾 殊 字符 
的 反 冬 线 序列 会 叶 臻 错误， 而 在 PHP 的 双 引 写字 符 串 中 ， 这 种 序列 会 原封 不 动 地 从 字符 串 中 传 过 来 。PHP 
的 字符 串 能 够 识别 \， 所 以 你 需要 用 “At" 来 表示 “ti ， 不 过 如 果 使 用 Aw”， 我 们 仍然 得 到 “\w| ， 因 为 \w 不 
属于 PHP 的 字符 串 能 够 识别 的 转 义 序列 。 这 个 额外 的 特性 ， 虽 然 有 时 候 很 顺手 ， 也 增加 了 PHP 双 引号 字符 
串 的 复杂 程度 ， 所 以 PHP 提 供 了 更 加 简单 的 单 引 号 字符 串 。 

PHP 的 单 引 号 字符 串 类 似 VB.NET 字 符 串 和 C 夫 的 @ " .… "字符 串 ， 都 属于 “格式 整齐 的 〈unclut- 
tered) ”字符 串 ， 不 过 入 有 不 同 。 在 PHP 的 单 引 号 字符 串 中 ，\ 表 示 单 引号 ，N 表 示 反 笠 线 。 任 何其 他 字符 
CAPE RRA) 都 不 会 被 识别 为 特殊 字符 ， 而 会 被 当 作 字符 的 值 。 也 就 是 说 ，Nt\x2A' 创 建 vtx2A | 。 
因为 音 引 号 字符 串 很 和 涂 单 ， 用 它 来 表示 PHP 的 正则 表达 式 非 党 方便 。 

PHP 的 单 引 号 字符 串 在 第 10 章 有 详细 讲解 0445) 。 

Python hj F íF F 

Python tt Y JLF ELF. FAS) SMA SA HAREE, AIS PHPAHN Ee, X 
两 种 方法 没有 区 别 。Python 也 提供 了 “三 重 引用 Ctriple-quoted) HERE, ite. RA a’ 
"， 它 们 可 以 包含 未 转 义 的 换行 行 。 这 4 种 类 型 都 文 持 第 用 的 反 笠 线 序 列 ， 例 如 mn， 不 过 和 和 PHP 一样， 它们 
也 会 把 不 能 识别 的 反 斜 线 序列 作为 纯 字 符 序 列 来 对 待 。 而 在 Java 和 C# 中 ， 这 些 序 列 会 被 出 钳 。 

与 PHP 和 C# 一 样 ，Python 也 提供 了 另 一 种 字符 串 文 字 ， 也 束 是 “ 原 字 符 串 Craw string) ”。 它 类 似 CH 
中 的 @ " ..." ，Python 在 以 上 4 种 表示 法 前 添加 "来 表示 纯 字 符 串 。 例 如 ，r " tx2A " 表示 tx2A| 。 与 
其 他 语言 不 同 的 是 ， 在 Python 的 原 字 符 串 中 ， 所 有 的 反 和 斜 线 都 会 保留 ， 即 使 是 用 来 转 义 双 引 号 的 〈 所 以 双 
引号 可 以 保存 在 字符 串 中 ) 也 是 如 此 : r" he saidi" hi\"\." 表示 he said\" Phih"\ 在 使 用 正则 表达 式 时 ， 
这 并 不 是 一 个 真正 的 问题 ， 因 为 Python 的 正则 表达 式 流派 把 \" | 识别 为 '" | ， 不 过 如 果 你 喜欢 ， 你 可 以 
忽略 这 些 细 市 ， 使 用 这 4 种 纯 字 符 串 中 的 任意 一 种 : r'he said "hi" \.'. 

Tcal 中 的 字符 串 

Td 与 其 他 语言 都 不 一 样 ， 因 为 它 没 有 真正 的 字符 串 变 量 。 相 反 ， 命 令 行 被 分 解 成 “单词 "，Tal 的 命令 
把 这 些 单 词 作为 字符 串 、 变 量 名 和 正则 表达 式 ， 或 者 其 他 适合 的 类 型 。 因 为 命令 行 被 分解 成 单词 ， 和 常见 的 
反 笠 线 序列 ， 例 如 mn， 能 够 识别 和 转换 ， 而 无 法 识别 的 反 斜 线 序列 则 被 忽略 。 如 采 愿 意 ， 你 可 以 在 单词 两 
半 添 加 双 引 号 ， 不 过 这 并 不 是 必须 的 ， 除 非 中 间 存 在 空格 。 

Td 同样 也 有 和 类 似 Python 的 纯 和 字符 串 类 似 的 原 字 人 符 串 类 型 ， 不 过 Tal 使 用 花 括 与 {...}， 而 不 是 r'...'。 在 
花 括号 之 间 ， 除 mm 之 外 的 所 有 内 容 都 会 原封 不 动 地 保存 下 来 ， 所 以 {Ntx2A} 表 示 \\t\x2A | 。 

在 花 括 号 之 内 ， 你 可 以 投 上 自己 的 意愿 添加 多 组 括 亏 。 非 众 套 的 括号 必须 用 反 斜 线 转 义 ， 不 过 反 和 斜 线 会 
保留 在 字符 串 之 中 。 

Perl 的 正则 表达 式 文 字 

至 今 为 止 ， 我 们 曾 看 到 过 的 Perl 的 例子 中 ， 正 则 表达 陈 都 是 以 文字 方式 提供 的 〈“ 正 则 表达 式 文字 
(regular expression literals) ”) 。 不 过 ， 我 们 也 可 以 用 字符 串 变 量 提 交 正 则 表达 式 ， 例 如 : 

$str=~m/(\w+); 


也 可 以 这 样 : 


























[| 日 日 Linux[| || www.linuxide.com [] [] 


Sregex = '(\wt)'; 


Sstr =~ Sregex; 
或 者 是 这 样 

Şregex = "(\\wt)"; 

Sstr =~ Sregex; 


(不 过 ， 使 用 字符 串 可 能 会 大 大 降低 效率 ， 号 242，348) 。 

对 于 以 文字 方式 提交 的 正则 表达 式 ，Perl 会 提供 一 些 额 外 的 特性 ， 包 括 : 

e。 变 量 插值 (把 变量 的 值 写 入 正则 表达 式 〉。 

e 通 过 \Q.A\E) 0F 113) 支持 文字 文本 。 

ene (optional) 文 持 \Nfname} 结 构 ， 这 样 瓯 能 通过 正式 的 Unicode 名 来 指定 字符 。 例 

ti, '\N{INVERTED EXCLAMATION MARK}Hola! | 能 够 匹配 iHolal 。 

在 Pen 中 ， 正 则 表达 式 文字 会 作为 特殊 的 字符 串 进 行 解析 。 实 际 上 ， 这 些 特性 在 Perl 双 引号 字符 串 中 也 
有 提供 。 必 须 说 明 的 一 点 是 ， 这 些 特 性 不 是 由 正则 引擎 提供 的 。 因 为 Perl 中 使 用 的 绝 大 多 数 正则 表达 式 必 
是 作为 正则 表达 式 文本 的 ， 许 多 人 认为 \Q...\E| 属于 Perl 的 正则 表达 式 语言 ， 不 过 如 果 你 用 正则 表达 式 从 
一 个 配置 文件 (或 者 命令 行 ) 读 入 数据 ， 知 道 哪 些 特性 是 由 语言 的 哪些 部 分 提供 的 惑 很 重要 了 。 

更 多 细节 ， 请 参考 第 7 章 第 288 页 。 





字符 编码 


Character-Encoding Issues 

字符 编码 是 一 种 写 明 的 共识 ， 它 规定 不 同 数值 的 字 节 应 该 如 何 解 释 。 在 ASCHE 编码 中 ， 值 为 十 进 制 
110 的 字 节 代表 字符 'n?， 不 过 在 EBCDIC 编 码 中 代表 ‘二 ;。 为 什么 会 这 样 ? 因为 这 是 由 不 同 的 人 规定 的 ， 没 
有 明确 的 标准 判断 各 种 编码 的 优 务 。 衬 节 的 值 是 一 样 的 ， 不 一 样 的 是 解释 。 

ASCII 只 定义 了 单个 字 节 能 够 代表 的 所 有 数值 的 一 半 ，ISO-8859-1 编 码 (通常 称 为 “Latin-1 编 码 *”) 填补 
了 下 面 的 空间 ， 其 中 增加 了 读音 字符 (accented character) 和 特殊 符号 ， 因 而 能 够 被 更 多 的 语言 所 使 用 。 对 
这 种 编码 来 说 ， 什 为 十 进 制 数 234 的 字 节 被 解 释 为 eA， 而 在 ASCII 中 没有 定义 。 

对 我 们 来 说 ， 重 要 的 问题 在 于 : 如 果 我 们 期 望 使 用 某 种 特定 编码 的 数据 ， 程 序 是 否 会 这 样 做 ? 例如 ， 
如 果 我 们 使 用 Latin-1 编 码 中 值 分 别 为 234、116、101 和 115 的 4 个 字 节 (表示 法 语 单 词 “étes”) ， 我 们 期 望 使 
用 正则 表达 式 “和 w+$ | 或 者 “Ab | 来 匹配 。 如 果 程 序 中 的 \w 或 者 \b 能 够 支持 Latin-1 字 符 ， 就 可 以 正常 工作 ， 
含 则 不 行 。 

编码 的 文 持 程 度 

编 亿 有 许多 种 ， 当 你 需要 关注 一 种 具体 的 编码 时 ， 你 需要 考虑 的 重要 问题 包括 : 

e 程 序 能 够 识别 这 种 编码 吗 ? 

e 程 序 如 何 决 定 采 用 哪 种 编码 来 处 理 这 些 数 据 ? 

e 正 则 表达 式 对 这 种 编码 的 文 持 程度 如 何 ? 

编 权 的 文 持 程 上 度 包括 奉 干 重要 的 问题 : 

o 是 否 能 够 文 持 多 字 节 字符 ? 点 号 和 [Ax] 之 类 的 表达 式 是 匹配 单个 字符 ， 还 是 单个 字 贡 ? 

e\wW、\d、\Ss、b 之 类 的 元 字符 ， 是 售 能 识别 编码 中 的 所 有 有 字符? 例如， 虽然 i 也 是 一 个 字符 ，\w 和 \b 能 
处 理 吗 ? 

e 程 序 是 否 会 扩展 对 字符 组 的 解释 ? [a-ze Ê 2 


e 不 区 分 大 小 写 的 匹配 是 否 能 对 所 有 字符 有 效 ? 例如 ， 全 和 上 是 否 一 样 ? 
有 时 候 事 情 不 像 看 起 来 那么 人 简单。 例如 ，java.util.regex 包 的 \b 能 够 正确 识别 Unicode 中 所 有 与 单词 相关 
的 字符 ，\w 则 不 能 ( 它 只 能 匹配 ASCII 中 的 字符 〉。 我 们 会 在 本 章 的 其 他 部 分 看 到 更 多 的 例子 。 

















Unicode 


Unicode 由 串口 由 Binux |] www.linuxidc.com [| L] 





Unicode 究 葛 是 什么 ， 似 乎 存在 许多 误解 。 从 最 基本 的 意义 上 说 ，Unicode 是 一 组 字符 设 定 ， 或 者 是 从 
ER 8 ae apy A} oe er 、 
数字 和 字符 之 间 的 迎 辑 映射 的 概念 编码 。 例 如 ， 吁 语 字 符 如 对 应 数字 49，333。 这 个 数值 ， 称 为 一 个 “ 代 
Al 
人 码 点 (code point) ”， 通 和 常用 十 六 进 制 来 表示 ， 以 “U+” 开 头 。49，333 换 算 成 十 六 进 制 是 COB5， 所 以 后 的 
代码 就 是 U+C0B5。 针 对 许多 字符 ，Unicode 还 定义 了 一 组 属性 ， 例 如 3 是 一 个 数字 ， 而 上 是 与 © 对 应 的 大 
BFR 
目前 ， 我 们 还 没有 谈 到 这 些 数值 在 计算 机 上 是 如 何 编码 为 数据 的 。 这 样 的 编码 方式 有 许多 ， 包 括 UCS- 
2 编码 〈 所 有 的 字符 都 占用 两 个 字 节 ) ，UCS-4 编 码 〈 所 有 字符 占用 4 个 字 节 ) ，UTF-16( 大 部 分 字符 都 占 
用 两 个 字 节 ， 有 一 些 字符 占用 4 个 字 节 ) ， 以 及 UTF-8 编 码 〈 用 1 到 6 个 字 节 来 编码 字符 ) 。 有 具体 的 程序 内 部 
到 压 使 用 哪 种 编码 通常 不 需要 用 户 来 关心。 用户 只 需要 关心 如 何 将 外 部 数据 (例如 从 文件 读 入 的 数据 〉 从 
己 知 的 编码 (ASCII、Latin-1、UTF-8 等 ) 转换 给 具体 的 程序 。 支 持 Unicode 的 程序 通 沼 提供 了 多 种 编 始 和 
解码 程序 来 进行 这 些 转换 。 
支持 Unicode 的 程序 中 的 正则 表达 式 通常 支持 \unum 元 序列 ， 用 来 匹配 一 个 具体 的 Unicode 字 符 = 


117) 。 这 个 数值 通常 是 一 个 4 位 的 十 六 进 制 数 ， 所 BWC0B5 表 示 氏 一 定 要 和 弄 清 楚 的 是 ，\uC0B5 的 意思 
是 “匹配 编号 为 U+COB5 的 Unicode 字 符 ”， 而 没有 说 具体 需要 比较 哪些 字 节 ， 因 为 具体 的 字 节 是 由 代表 这 个 
Unicode 代 码 点 的 编码 方式 在 内 部 决定 的 。 如 果 程 序 内 部 使 用 的 是 UTF-8 编 码 ， 这 个 字符 就 用 3 个 字 节 表 
示 。 不 过 使 用 支持 Unicode 程 序 的 用 户 ， 并 不 需要 关心 这 个 (也 有 时候 需要 ， 例 如 使 用 PHP 的 preg 套 件 和 模 
式 修饰 符 urs447) 。 

还 有 一 些 你 或 许 需 要 知道 的 相关 知识 .……… 

字符 ， 还 是 组 合 字符 序列 

一 般 人 眼 里 的 “字符 ”(character) 并 不 都 会 被 Unicode 或 者 支持 Unicode 的 程序 〈 或 者 正则 引擎 ) 看 作 
一 个 字符 。 例 如， 有 人 或 许 认为 ij 是 一 个 字符 ， 但 是 在 Unicode 中 ， 它 可 能 由 两 个 代码 点 构成 ， 
U+0061 (a) 和 和 钝 重音 (grave accent) U+0300 C) 。Unicode 提 供 了 许多 组 合 字 和 人 符 (combining 
character) ， 用 来 修饰 《结合 ) 一 个 基本 字符 。 这 会 给 正则 引擎 市 来 些 肪 烦 ， 人 例如， 点 号 是 应 该 匹配 单个 
代码 点 昵 ， 还 是 整个 U+0061 和 U+0300? 

在 实践 中 ， 许 多 程序 似乎 把 “字符 ”和 “代码 点 ” 视 为 等 价 ， 也 就 是 说 ， 点 号 可 以 匹配 单个 的 代码 点 ， 无 
论 是 基本 字符 还 是 组 合 字符 。 所 以 ，a (CU+0061 加 上 U+0300) 能 够 由 ^..$| 匹配 ， 而 不 是 ^.$| 。 

Perl 和 PCRE 〈 以 及 PHP 的 preg 和 套件 ) 文 持 \X 元 序列 ， 这 样 点 号 〈“ 匹 配 单个 字符 ”) 束 能 够 匹配 一 个 结 
合 了 组 合 字 符 的 基本 字符 。 详 见 第 120 页 。 

在 文 持 Unicode 的 编辑 器 中 输入 正则 表达 式 时 ， 一 定 要 记 住 组 合 字 符 的 概念 。 如 果 一 个 带 音 调 的 字符 ， 
例如 A， 被 正则 表达 式 当 作 ‘A? 和 “，， 很 可 能 无 法 匹配 字符 串 中 单个 代码 点 表示 的 人 A〈 下 一 节 讨论 单 代码 
点 的 情况 ) 。 同 样 ， 对 正则 引擎 来 说 它 是 两 个 不 同 的 字符 ， 所 以 [...A...] 在 字符 组 中 添加 了 两 个 字符 ， 
SEE IT Ae ...]| 。 

同样 ， 如 果 两 个 代码 点 的 字符 一 一 例如 A 
也 就 是 [A+ 8 

用 多 个 代码 点 表示 同一 个 字符 

从 理论 上 说 ，Unicode 应 该 是 代码 点 和 字符 之 间 的 一 一 映射 (译注 4) ， 不 过 在 许多 情况 下 ， 一 个 字符 
可 能 有 多 种 表现 方式 。 前 一 节 中 我 们 看 到 ae 可 以 表示 为 U+0061 加 上 U+0300。 不 过 ， 它 也 可 以 用 单个 代码 点 
U+00E0。 为 什么 会 出 现 这 种 情况 ?是 为 了 保证 Unicode 和 Latin-1 之 间 转 换 的 简易 性 。 如 果 我 们 有 需要 转换 
为 Unicode 的 Latin-1 文 本 ， 可 能 被 转换 为 U+00E0。 不 过 ， 也 可 以 转换 为 U+0061 和 U+0300 的 组 合 。 通 常 ， 
这 种 转换 是 自动 的 ， 用 户 无 法 干预 ， 不 过 Sun 的 java.util.regex 包 提供 了 一 种 特殊 的 匹配 符 ，CANON_EQ， 
保证 能 够 匹配 “在 规则 中 等 价 Ccanonically equivalent) ”的 字符 ， 无 论 它们 在 Unicode 中 使 用 什么 存储 方式 
(1=368) 。 

与 此 相关 的 问题 是 ， 不 同 的 字符 可 能 无 法 从 外 观 上 区 分 ， 如 果 需 要 检查 生成 的 文本 ， 这 会 带 来 混乱 。 
例如 ， 罗 马 字 母 I 〈U+0049) 可 能 与 [1， 也 就 是 希腊 字 母 lota(U+0399) 混 清 。 这 个 字符 添加 布 腾 语 冒号 
之 后 得 到 I 或 者 I， 编 码 也 增加 到 4 种 (CU+00CF; U+03AA; U+0049 U+0308; U+0399 U+0308) 。 也 就 是 
说 ， 如 果 需 要 匹配 1， 你 可 能 需要 手动 指定 这 4 种 可 能 。 类 似 的 例子 还 有 许多 。 

还 有 许多 单个 字符 看 起 来 不 只 一 个 字符 。 例如 [了 全 of 全 PE AG KP GR ARE NK dE Ed THD] 











后 面 跟 有 一 个 量词 ， 量 词 作用 的 其 实 是 第 二 个 代码 点 ， 














字符 。 这 很 像 两 个 普通 字符 Hz 的 组 合 (U+0048 U+007A) 。 

尽管 Hz 之 类 的 特殊 字符 的 用 途 在 目前 非常 有 限 ， 但 在 将 来 ， 和 它们 的 应 用 肯定 会 增加 文本 处 理 程序 的 复 
杂 性 ， 所 以 在 处 理 Unicode 时 不 应 筷 记 这 些 问 题 。 用 户 可 能 会 期 望 ， 处 理 这 样 的 数据 时 ， 必 须 能 够 处 理 正 各 
空格 (U+0020) 和 非 换 行 空 格 (no-break spaces) (U+00A0) ， 或 许 还 需要 包括 Unicode 中 其 他 的 成 打 的 
空 日 字符 之 中 的 任意 一 个 。 

Unicode 3.1+ 和 U+FFFF 之 后 的 代码 点 

Unicode Version 3.1 诞 生 于 2001 年 中 期 ， 增 加 了 U+FFFF 之 后 的 代码 点 (之 前 版 本 的 Unicode 也 支持 这 些 
代码 点 ， 但 是 在 Version 3.1 以 前 ， 它 们 都 是 没有 定义 的 ) 。 例 如 ， 代 表 首 乐谱 号 CClef〉 的 字符 对 应 代码 
点 U+1D121。 之 前 那些 仪 支持 低 于 U+FFFF 字 符 的 程序 无 法 处 理 这 种 情况 。 大 多 数 程序 的 \unum 只 能 支持 
最 多 4 位 十 六 进 制 数 值 。 

能 够 处 理 这 类 新 字符 的 程序 通 第 提供 了 \xfnum} 序 列 ，num 可 以 为 任意 多 位 数字 〈 这 是 为 了 增强 只 文 持 
4 位 数字 的 \unum 表 示 法 ) 。 你 可 以 使 用 \x{1D121} 来 匹配 这 类 “谱写 C” 之 类 有 的 字符 。 

Unicode 中 的 行 终止 符 

Unicode 定 义 了 多 个 用 于 表示 行 终止 符 的 字符 〈 以 及 一 个 双 字 符 序 列 ) ， 详 见 表 3-5。 

表 3-5: Unicode 行 终止 符 


字符 描述 
vr mo [asc asia 


FF U+000C ASCII 进 纸 符 
CR U+000D ASCII 回 车 


CR/LF | U+000D U+000A ASCII 回 车 /换行 
NEL U+0085 Unicode 换行 


LS U+2028 Unicode 行 分 陪 符 














“PS | Unicode 段 分 隔 符 


如 果 行 终止 符 获 得 了 完全 的 支持 ， 它 会 影响 文本 行 从 文件 (在 脚本 语言 中 ， 还 包括 程序 读 取 的 文件 ) 
读 入 的 方式 。 在 使 用 正则 表达 式 时 ， 它 们 影响 点 号 (111), WRIA. '$) 和 NZ 的 匹配 0112) 。 


正则 模式 和 匹配 模式 





Regex Modes and Match Modes 

许多 正则 引擎 都 支持 多 种 不 同 的 模式 ， 它 们 规定 了 正则 表达 式 应 该 如 何 解 释 和 应 用 。 我 们 已 经 看 过 
Perl 的 /x 修饰 全 (容许 自由 空格 和 注释 的 正则 模式 从 72〉 和 /ii 修饰 符 〈 进 行 不 区 分 大 小 号 匹配 的 模式 噬 
47) -o 

FEVFS IRA, PESO WSCA EAT MP eA, tee DV AT SER Fee TL. RAMH ee 
修饰 符 或 者 选项 (options) 来 决定 的 ， 例 如 Perl WA, PHP 的 模式 修饰 符 i C= 446) ， 和 java.util.regex 的 
Pattern.CASE_INSENSITIVE 标 志 C99) 。 如 末 文 择 ， 应 用 到 目标 字符 串 中 部 分 文本 的 模式 是 通过 一 个 正 
则 结构 来 实现 的 ， 例 如 用 O i) | 来 开启 不 区 分 大 小 写 的 匹配 ，1' (? -i) | 来 停 用 该 匹配 。 有 的 流派 也 
支持 Qi ...) | 和 O -i: ...) | 来 启用 或 者 停 用 对 括号 内 的 子 表 达 式 进行 不 区 分 大 小 写 匹配 的 功 
能 。 

本 章 后 面部 分 会 介绍 (号 135〉 如 何在 正则 表达 式 中 设置 这 些 模 式 。 在 本 市 ， 我 们 只 看 看 大 多 数 系统 所 
供 的 第 见 模式 。 

不 区 分 大 小 写 的 匹配 模式 

此 模式 很 常见 ， 它 在 匹配 过 程 中 会 忽略 字母 的 大 小 写 ， 所 以 1'b| 可 以 匹配 和 'B?。 此 功能 也 必须 依赖 
于 正确 的 字符 编码 文 持 ， PAZ a BeAr oe Bl BE SE RNE aE x |] [| www.linuxidc.com [] [] 

















在 历史 上 ， 不 区 分 大 小 写 的 匹配 文 持 一 直 不 太 令 人 人 满意， 被 bug 困扰 ， 好 在 如 今 大 部 分 已 经 修正 了 。 
不 过 ，Ruby 不 区 分 大 小 写 的 匹配 仍然 不 能 处 理 八 进 制 和 十 六 进 制 的 转 义 字符 。 不 区 分 大 小 写 的 匹配 存在 特 
殊 的 与 Unicode 相 关 的 问题 〈 在 Unicode 中 称 为 “ 租 略 匹配 (loose matching) ”) 。 人 简单 地 说 ， 融 是 并 非 所 有 
的 ASCI 字 母 和 数字 字符 都 存在 大 小 写 形 式 ， 而 采 些 字符 在 作为 单词 首 字 母 时 会 有 单独 的 标题 格式 《title 
case) 。 有 了 时候 在 大 写 和 小 写 之 则 并 没有 明显 的 一 对 一 映 映 。 和 第 见 的 例子 古 铝 腊 字 母 西 格 蕊 >， 它 有 两 个 小 
写 形式 C 和 o， 在 不 区 分 大 小 写 的 模式 中 ， 这 三 者 应 该 是 等 价 的 。 根 据 我 的 测试 ， 只 有 Perl 和 Java 的 
java.util.regex 能 够 正确 处 理 它们 。 

另 一 个 问题 是 ， 有 时 候 单 个 字符 会 对 应 到 一 组 字符 。 第 见 的 例子 是 大 与 的 e 是 两 个 字符 的 组 合 “SS”。 
这 种 情况 只 有 Perl 能 够 正确 处 理 。 

Unicode 还 带 来 了 一 些 问题 。 例 如 单字 符 了 《0U+01F0 ) 没 有 对 应 的 大 写 形式 的 单字 符 。 相 反 ， 需要 
使 用 组 合 字符 (二 107) ，U+004A 和 U+030C。 而 J 了 和 J 应 该 在 不 区 分 大 小 写 的 模式 中 是 等 价 的 。 类 似 的 
还 有 一 对 三 的 例子 。 滁 好 ， 这 些 都 不 是 党 用 字符 。 

宽松 排列 和 注释 模式 

此 模式 会 忽略 字符 组 外 部 的 所 有 空白 字符 。 字 符 组 内 部 的 空白 字符 仍然 有 效 (java.util.regex 是 例 
Sh) ，# 符 号 和 换行 符 之 间 的 内 容 视 为 注释 。 我 们 已 经 见 过 Perl C72) 、Java (= 98) 和 VB.NET (= 
99) 中 相应 的 例子 。 

不 过 ， 在 java.utilregex 中 ， 字 符 组 之 外 的 所 有 空 日 字符 并 非 都 会 被 忽略 ， 而 是 作为 一 个 “无 意义 元 字符 
(do-noting metacharacter) ”。 在 理解 \12.3| 时 ， 这 种 区 分 很 重要 ， 因 为 它 表 示 3) RE  \12| 之 后 ， 而 
不 是 有 些 人 以 为 的 \123 | 。 

当然 ,“ 衬 日 字符 ”的 定义 取决 于 所 采用 的 字符 编码 的 定义 ， 以 及 此 编码 对 至 日 字符 的 文 持 程度 。 大 多 
数 程序 只 能 识别 ASCII 的 空白 字符 。 

点 号 通 配 模 式 (dot-match-all match mode, tH nY FTR”) 

通 党 ， 点 号 古 不 能 罗 配 换行 行 的 。 最 初 的 Unix 正 则 表达 式 工 其 是 逐 行 处 理 的 ， 直 到 sed 和 lex 出 现 之 
后 ， 才 提出 匹配 换行 符 的 要 求 。 屠 时候， 人 们 常用 .大 | 来 匹配 “本 行 中 的 其 他 内 容 (the rest of the 
line) ”， 为 了 保证 一 致 ， 新 的 语法 不 能 修改 .类 | 的 定义 〈 注 9) 。 所 以 ， 能 够 处 理 多 行文 本 的 工具 (例如 
MASH FAS) 通 利 不 容许 点 号 匹配 换行 符 。 

对 现代 编程 语言 来 说 ， 点 号 能 够 匹配 换行 符 的 模式 和 不 能 匹配 的 模式 同样 有 用 。 这 两 种 模式 哪个 更 方 
便 ， 取 决 于 其 体 的 情况 。 许 多 程序 提供 了 两 种 方法 供 正 则 表达 式 选 择 。 

这 种 常规 标准 也 有 少数 例外 的 情况 。 支 持 Unicode 的 系统 ， 例 如 在 Sun 的 正则 表达 式 包 ， 点 写 能 够 下 
配 未 使 用 此 模式 时 点 号 不 能 匹配 的 所 有 单字 符 Unicode 行 终止 符 C109) 。 在 Tal 的 普通 模式 中 ， 点 号 能 够 
























































匹配 任何 字符 ， 但 是 在 其 特殊 的 “区 分 换行 Cnewline-sensitive) ”和 “部 分 区 分 换行 (partial newline- 
sensitive) ”的 匹配 模式 下 ， 上 点 号 和 排除 型 字符 组 都 不 能 匹配 换行 符 。 
不 笠 的 命名 


/修饰 符 对 应 的 匹配 模 陈 第 一 次 出 现在 Perl 时 ， 被 称 为 “单行 文本 模式 〈single-line mode) ”。 这 个 不 入 
的 命名 一 直 是 混乱 的 起 源 ， 因 为 与 下 一 节 讨 论 的 “多 行文 本 模式 (multiline mode) ”比较 起 来 ， 它 似乎 与 
I 和 $ 没有 关系 。 其 实 * 单 行文 本 模式 ” 指 的 是 ， 点 号 不 受 限 制 ， 可 以 匹配 任何 字符 。 

增强 的 行销 点 模式 (Enhanced line-anchor match mode， 也 叫 “ 多 行文 本 模式 ”) 

增强 的 行销 点 模式 会 影响 到 行销 点 A 和 ls 的 中 配 。 通 第 情况 下 ， 销 点 A 不 能 匹配 字符 串 内 部 的 
换行 符 ， 而 只 能 匹配 目标 字符 串 的 起 始 位 置 。 但 是 在 此 增强 模式 下 ， 它 能 够 匹配 字符 串 中 内 藤 的 文本 行 的 
开头 位 置 。 前 一 章 出 现 了 这 样 的 例子 〈 嗓 69) ， 当 时 我 们 用 Perl 开 发 把 文本 内 容 转 换 为 超 文 本 内 容 程序 。 
其 中 ， 所 有 的 文本 保存 在 一 个 字符 串 中 ， 上 所 以 我 们 可 以 通过 奏 找 - 符 换 功能 s/M$/<p>/mg 来 把 “...tags. 
Mies. otee.. tags. OY <p> 四 I0s...*。 该 蔡 换 把 空 < 行 * 蔡 换 为 段落 tag， 

$, 也 是 这 样 ， 尽 管 $ 在 正常 情况 下 的 匹配 的 基本 规则 比较 难 理 解 C129) 。 不 过 ， 束 本 节 来 
说 ， 我 们 只 需要 记 住 ， $ HY DADO AC SABA BBA HRT AS, WE J o 

LR UE AE a sa fe FE y A 和 AZ) ， 它 们 的 作用 与 普通 的 I 和 $ 一 样 ， 只 是 在 此 模式 

它们 的 意义 不 会 发 生变 化 。 也 就 是 说 VA) AZ. 永远 不 会 匹配 字符 部 的 换行 符 。 有 些 实现 方式 

TE 义 不 会 及 生变 人 多 是 说 | 人 和 下 or 的 换行 从 。 有 有 a i 
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H, $| A \Z | 能 够 匹配 字符 串 内 部 的 换行 符 ， 不 过 它们 通常 会 提供 “zj ， 唯 一 匹配 整个 字符 串 的 结尾 
位 置 。 详 见 129 页 。 

对 点 号 来 说 ， 常 用 标准 有 一 些 例 外 。 在 GNU Emacs 之 类 的 文本 编辑 器 中 ， 行 锚 点 通常 能 够 匹配 字符 串 
中 的 换行 符 ， 因 为 在 编辑 器 中 这 样 非常 有 意义 。 另 一 方面 ，lex 的 “$| 只 能 匹配 换行 符 之 前 的 位 置 ( 其 中 
AI 的 意义 与 常见 的 一 样 ) 。 

此 模式 下 ， 在 Sun 的 java.utiLregex 之 类 支持 Unicode 的 系统 中 ， 行 锚 点 能 够 匹配 任何 一 种 行 终止 符 〈 亏 
109) > Ruby 的 行销 点 在 正常 情况 下 能 够 匹配 字符 串 中 的 换行 符 ，Python 的 \Z| Ki | \2) ， 而 不 是 普通 的 
[op 

长 期 以 来 ， 这 种 模式 被 称 为 “多 行 模式 (multiline mode) ”。 尺 管 它 与 “单行 模式 ”没有 什么 关系 ， 但 看 
名 字 总 容易 觉得 二 者 有 关联 。 后 者 修改 的 是 点 号 的 匹配 规则 ， 前 者 修改 的 是 ^| 和 1'$| 的 匹配 规则 。 另 一 
方面 ， 它 们 从 不 同 的 思路 处 理 换 行 符 。 第 一 个 修改 了 点 号 处 理 换行 符 的 方式 ， 从 “需要 特殊 处 理 ” 变 为 “不 需 
要 特殊 处 理 ”， 第 二 个 的 做 法 则 相反 ， 改 变 了 1^ 和 $| 匹配 换行 符 的 方式 ， 从 “不 需要 特殊 处 理 ” 变 为 “ 需 
要 特殊 处 理 ”( 注 10) 。 

文字 文本 模式 

“文字 文本 (literal text) ”模式 几乎 不 能 识别 任何 正则 表达 式 元 字符 。 例 如 ， 文 字 文 本 模式 下 '[a-z]x | 
LMZ“ [a-z] 六 ”。 完 整 的 文字 搜索 (iteral search) 等 于 人 简单 的 字符 串 搜 索 (“搜索 这 个 字符 串 ”， 而 不 
是 “搜索 这 个 正则 表达 式 ”) ， 支 持 正则 表达 式 的 程序 通常 也 提供 了 普通 的 字符 串 搜 索 功 能 。 正 则 表达 式 的 
文字 文本 模式 之 所 以 更 有 趣 ， 是 因为 它 可 以 只 作用 于 正则 表达 式 的 一 部 分 ， 举 例 来 襄 ，PCRE (因此 也 包括 
a 其 中 内 容 的 元 字符 全 部 被 忽略 〈 当 
然 ， 不 包括 \E) 。 





[| 日 日 Linux[| || www.linuxide.com [] [] 


利用 的 元 字符 和 特性 


Common Metacharacters and Features 





本 草 的 其 他 部 分 一 一 剩 下 大 约 30 页 的 内 容 简 要 介绍 下 一 页 列 出 的 第 见 正 则 表达 却 元 字符 和 概念 。 这 里 
的 介绍 并 不 是 全 面 彻 奈 的 ， 不 过 也 没有 任何 一 种 正则 工具 涉及 其 中 的 所 有 内 容 。 


备 。 





从 菏 种 音义 上 说 ， 这 一 市 只 是 前 两 草 内 容 有 的 忌 结 ， 但 同时 也 是 为 本 草 介 绍 更 全 面 更 深刻 的 知识 做 准 
谈 者 第 一 次 接触 时 ， 只 需 略 读本 草莽 可 以 继续 阅读 下 面 各 章 ， 以 后 在 需要 的 时 候 可 以 随时 回 过 头 来 得 


网 细 市 。 


有 的 工具 洪 加 了 大 量 的 新 功能 ， 也 可 能 又 无 根据 地 改变 人 攻 些 通用 表示 法 ， 以 满足 它们 的 特殊 要 求 。 尺 


省 我 有 时 会 近 到 这 些 特殊 的 工具 ， 但 不 会 化 太 多 的 笔 仆 在 工具 的 细 市 问题 上 。 相 反 ， 在 这 一 节 我 只 布 望 介 
绍 向 见 的 元 字符 及 其 作用 ， 以 及 与 此 相关 的 一 些 问 题 。 我 希望 读者 能 够 参考 目 己 擅长 的 工具 提供 的 使 用 手 


册 。 


本 节 介 绍 的 结构 

字符 表示 法 

有 115 字 符 缩 略 表示 法 : nn、\t、 \a、\b、\e、 \f Wr Wy... 
116 八 进 制 转 义 : \num 

117 十 六 进 制 /Unicode 转 义 : \xnum, \x{num}, \unum, \Unum, ... 
117 控 制 字 符 : \cchar 

字符 组 及 相关 结构 

118 普通 字符 组 : [a-z] 和 [人 a-z] 

119 几乎 能 匹配 任何 字符 的 元 字符 : 点 号 

120 单个 字 节 :AMC 

120 Unicode 组 合 字 符 序 列 : \X 

120 字符 组 缩 略 表示 法 : \w、\d、 \s、\W、\D、\S 

=121 Unicode 属 性 、 区 块 和 分 类 : \p{Prop}、\P{Prop} 
125 字符 组 运算 符 : [[a-z]&&x[Aaeiou]] 

127 POSIX“ 字 和 侍 组 ” 方 插 号 表示 法 : [[: alpha: ]] 

128 POSIX“collating 序 列 ” 方 括号 表示 法 : [[.span-ll.]] 
128 POSIX“ 字 符 等 价 类 ” 方 括号 表示 法 : [[=n=]] 

128 Emacs 语法 类 

销 点 及 其 他 “ 零 长 度 断 言 ” 

2129 行 /字符 串 起 点 : ^A、\A 

129 行 /字符 串 终 点 : $ Z < 

2130 本 次 匹配 的 开始 位 置 〈 或 者 上 次 匹配 的 结束 位 置 ) : \G 
133 单词 分 界 符 :， \b. AB, AKS, A>, aan 

2133 顺序 环视 (? =...) 、(? 1 ...) ; 逆序 环视 (? <=...) CP L) 
注释 和 模式 修饰 词 

135 模式 修饰 词 : ©? modifier) , fia ©? i) 或 (? -i) 
135 模式 作用 范围 : ©? modifier: ...) ， 例 如 (C? i: ...) 
136 注释 : (? #...) AF... 

2136 文字 文本 范围 : \Q...\E 

分 组 、 捕 获 、 条 件 判 断 和 控制 

2137 捕获 /分 组 括号 : (...) 、\L、\2，.. 

137 仅 用 于 分 组 的 插 号 : (3? : ...) 

138 命名 捕获 : ©? <Name>...) 



































139 固化 分 组 : (? >...) [| 日 日 Linux[| [|] www.linuxidc.com [] [] 


139 多 选 结构 : ...|...|... 

140 条 件 判断 : C? if thenlelse) 

141 上 几 配 优先 量词 : 类、+、? {num, num} 

141 忽略 优先 量词 : *? . +2? 、? ? 、{fnum，numl? 
2142 占有 优先 量词 : 类 +、++、? +. {num, num}+ 








字符 表示 法 


Character Representations 

这 一 组 元 字符 能 够 以 清晰 美观 的 方式 匹配 其 他 方式 中 很 难 描 述 的 某 些 字符 。 

字符 缩 略 表示 法 

许多 工具 软件 提供 了 表示 茶 些 控制 字符 的 元 字符 ， 其 中 有 一 些 在 所 有 机 需 上 都 是 不 变 的 ， 但 也 有 些 是 
很 难 输入 或 观察 的 : 

\a 警报 〈 例 如 ， 在 “打印 ?时 扬声器 发 声 ) 。 通 常 对 应 ASCII 中 的 本 BEL > 字符 ， 八 进 

制 编 码 007。 

\b 退 格 通常 对 应 ASCII 中 的 BS 二 字符， 八进制 编码 010。〔 在 许多 流派 中 ，'\b| 只 有 在 字符 组 内 部 
才 表 示 这 样 的 意义 ， 否 则 代表 单词 分 界 侍 写 133) 。 

\e Escape 字 符 通 第 对 应 ASCII 中 的 二 ESC 二 字符， 八进制 编码 033。 

f 进 纸 符 通常 对 应 ASCII 中 的 二 FF 过 > 字符， 八进制 编码 014。 

\n 换行 符 出 现在 几乎 所 有 平台 (包括 Unix 和 DOS/Windows) 上 ， 通 常 对 应 ASCII 的 二 LF 字符 ， 八 进 
制 编码 012。 在 MacOS 中 通常 对 应 ASCII 的 二 CR 字符， 十进制 编码 015。 在 Java 或 任意 一 种 .NET 语言 
中 ， 不 论 采 用 什么 平台 ， 都 对 应 ASCII<LF> 字 符 。 

\r 回 车 通常 对 应 ASCII 的 CR> 字 符 。 在 MacOS 中 ， 对 应 到 ASCII 的 LEF> 字 符 。 在 

Java 或 任意 一 种 .NET 语 言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 到 ASCI 的 本 CR> 字 符 。xt 水 平 制 表 符 对 应 
ASCII 的 <HT> 字 符 ， 八 进 制 编码 011。 

\v 垂直 制 表 符 对 应 ASCII 的 二 VT 字符， 八进制 编码 013。 

表 3-6 列 出 了 几 种 篆 用 的 工具 及 它们 提供 的 某 些 字符 缩 略 表示 法 。 之 前 已 经 说 过 ， 某 些 语言 在 文 持 字符 
串 文 字 时 已 经 提供 了 同样 的 字符 缩 略 表示 法 。 请 不 要 环 记 那 一 节 〈 权 101) ， 因 为 它 涉及 茶 些 相关 的 陷阱 。 

会 根据 机 需 变 化 的 字符 ? 

从 该 表 可 以 看 出 ， 在 许多 工具 中 ，\n 和 的 意义 是 随 操作 系统 的 变化 而 变化 的 〈 注 11) ， 上 所 以 在 使 用 时 
应 格外 小 心 。 如 果 你 需要 在 程序 可 能 运行 的 所 有 平台 上 都 能 通用 的 “换行 符 ”， 请 使 用 mn。 如 果 需 要 一 个 对 
应 特殊 值 的 字符 ， 例 如 HITP 协 议定 义 的 分 隔 符 ， 请 使 用 \012 之 类 标准 规定 的 字符 (012 是 ASCII 中 的 换行 
符 的 八进制 编码 ) 。 如 果 你 希望 匹配 DOS 中 的 行 终结 字符 ， 请 使 用 \015\012| 。 如 果 希 望 同 时 匹配 DOS 
或 Unix 的 换行 字符 ， 请 使 用 [\015? \012| (它们 通常 是 匹配 行 尾 的 字符 ， 如 果 希 望 罗 配 行 的 开头 位 置 或 
结尾 位 置 ， 请 使 用 行销 点 坊 129) 。 

表 3-6: 几 款 工具 软件 及 它们 提供 的 元 字符 简写 法 

















[| 日 日 Linux[| || www.linuxidc.com [] [] 


单词 RE 警报 ASCII 
分 界 符 字符 Escape 
\b \b \a \e 
程序 | 
Python Ve / 
Tel 等 ylvV vo Vv 
Perl /. / Vv 
Java J. J / 
GNU awk lx x 
GNU sed gz | 
GNU Emacs v f, f, 
NET i, ££ # 
PHP (preg ##t)|/ We s y 
MySQL 一 
GNU srep/egrep 


flex O W W 
Ruby w / / 


Va, Vc 只 在 字符 组 内 部 支持 
ws 支持 (字符 囊 文字 也 支持 ) 


进 纸 符 换行 待 SH 制 表 符 垂直 
制 表 符 


NE \n Nz NE \v 
字符 简写 
/ / / / / 
/ / / W / 
J / / W 
le Wa Ve Ve ¥ 
W / / J / 
/ 
Z Z Z df 


N/A] 

| S 

Ss, || Si 

| 二 
x 


Vx 支持 (但 在 字符 囊 文字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 


Vx 不 支持 (但 
Vs 不 支持 (但 字符 串 文字 支持 ) 
本 表格 假设 在 每 种 程序 中 使 用 的 郁 是 最 适合 
版 本 信息 请 参考 第 91 页 

八进制 转 义 num 


旦 在 字符 事 文 字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 


正则 表达 式 的 字符 串 类 型 


支持 八进制 (以 8 为 基数 ) 转 义 的 实现 方式 通常 容许 以 2 到 3 位 数字 表示 该 值 所 代表 的 字 节 或 字符 。 例 
a, '\015\012, 表示 ASCII 的 CR/LF 序列 。 八 进 制 转 义 可 以 很 方便 地 在 正则 表达 式 中 插入 平时 难以 输入 的 
字符 。 例 如 ， 在 Perl 中 ， 我 们 可 以 使 用 \e| 作为 ASCII[ 的 转 义 字符 ， 但 是 在 awk 中 不 行 。 


村 们 。 


因为 awk 文 持 八进制 转 义 ， 我 们 可 以 直接 使 用 ASCII 代 码 来 表示 escape 字 人 符 : 


下 一 页 的 表 3-7 列 出 了 部 分 工具 文 择 的 八进制 转 义 。 
有 些 实现 方式 很 特殊 ， 在 其 中 \0] 
同时 支持 \1| 之 类 的 反 向 引用 ， 就 不 会 提供 这 种 功 
制 转 义 。 有 的 容许 出 现 


java.util.regex) 。 


\033| 。 


能 够 匹配 字 节 NUL。 有 的 文 持 一 位 数字 的 八进制 转 义 ， 不 过 如 条 
HE. WR DN AETHER, 
4 位 数字 的 八进制 转 义 ， 不 过 通 币 会 要 求 任何 八进制 转 义 都 必须 以 0 开头 《例如 
由 串口 局 bBinux |] www.linuxidc.com [] [] 


则 反 回 引用 一 般 要 优先 于 八 进 


你 可 能 会 想 ， 如 采 过 到 \565 之 类 超出 范围 的 转 义 数值 〈8 位 的 八进制 数值 范围 从 \000 到 \377) 会 发 生 
什么 。 大 约 一 半 的 实现 方式 将 其 视 为 多 余 一 个 字 节 的 值 《 如 末 文 持 Unicode， 则 可 能 是 Unicode 字 符 ) ， 而 
其 他 实现 方式 会 将 其 规 断 为 一 个 字 节 。 一 般 来 说 ， 最 好 的 办 法 还 是 不 要 使 用 超过 \377 的 八进制 转 义 。 

十 六 进 制 及 Unicode 转 义 : \xnum, \x{num}, \unum, \Unum 

除了 八进制 转 义 之 外 ， 许 多 工具 软件 也 支持 十 六 进 制 转 义 (以 16 为 基数 ) ， 以 x、\u 或 者 是 \U 和 开头。 
如 果 支 持 x， 则 '\x0DWx0A | 匹配 CR/ILF 序 列 。 表 3-7 列 出 了 部 分 工具 软件 支持 的 十 六 进 制 转 义 。 

除了 知道 采用 的 是 哪 种 转 义 之 外 ， 你 可 能 还 希望 知道 各 种 转 义 能 识别 多 少 位 的 转 义 值 ， 以 及 是 否 能 够 
(或 者 必须 ) 在 数字 两 痪 使 用 花 括 号 。 对 此 ， 表 3-7 同 样 作 了 说 明 。 

控制 字符 : \cchar 

许多 流派 中 可 以 用 \cchar| 来 匹配 编码 值 小 于 32 的 控制 字符 〈 有 些 能 支持 更 大 的 值 ) 。 例 如 ， fcH 
匹配 一 个 Control-H 字 符 ， 也 就 是 ASCII 中 的 退 格 符 ， 而 \cJ| 匹配 ASCII 的 换行 符 ( 通 常 使 用 mi ， 不 过 有 
时 也 使 用 | ， 这 取决 于 具体 的 平台 号 115)。 

文 持 此 结构 的 系统 在 细 季 上 有 所 不 同 。 与 这 个 例子 一 样 ， 通 第 使 用 大 与 黄 文 字母 是 不 会 有 问题 的 。 在 
大 多 数 实 现 方式 中 ， 你 也 可 以 使 用 小 与 字母 ， 不 过 也 有 的 软件 不 文 持 它 们 ， 例 如 Sun 的 Java regex Package. 
流 小 不 同 ， 对 字母 和 数字 之 外 的 字符 的 处 理 是 非常 不 同 的 ， 所 以 我 推荐 在 使 用 \c 时 只 使 用 大 与 字母 。 

相关 提示 : GNU Emacs 支持 此 功能 ， 但 它 使 用 的 元 序列 非常 奇特 1? Vichar, alan: 1? WH) 匹配 
ASCII 编 但 中 的 退 格 字符 ) 。 

表 3-7: 部 分 工具 软件 及 它们 的 正则 表达 式 支持 的 八进制 和 十 六 进 制 转 义 


[| 日 日 Linux[| || www.linuxide.com [] [] 


Lahi NARX 十 六 进 制 转 义 


Perl | 三 eae “ir Age: Axes \x fe 


Java bY (A07, \77, \0377 | \xFF; \uFFFF 
GNU sed — 

GNU Emacs if | | 

NET (a \xEF, \uFFFF 
_ MySQL 

GNU egrep 一 一 | 一 一 一 一 

GEU grep | | 

flex [| | Ve. AP, NOP \xF; \xFF 
Ruby C7 Maz. B77 \xF; \xFF 
\0 一 一 \01 匹 配 字 节 NUL， 而 其 他 一 位 数字 的 八进制 转 义 是 不 支持 的 。 
\7,\77 一 一 一 位 和 两 位 八进制 转 义 都 支持 

\07 一 一 支持 开头 为 0 的 两 位 八进制 转 义 

\077 一 一 支持 开头 为 0 的 3 位 八进制 转 义 

\377 一 一 支持 不 超过 \377 的 3 位 八进制 转 义 

\0377 一 一 支持 不 超过 \0377 的 4 位 八进制 转 义 

\777 一 一 支持 不 超过 \777 的 3 位 八进制 转 义 

\x… 一 一 容许 出 现任 意 多 位 数字 

\x{…】} \x{…} 容 许 出 现任 意 多 位 数字 

\xF, \xFF 一 一 以 \x 开头 ， 容 许 出 现 一 到 两 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \u 开 类 的 4 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \U 开头 的 4 位 十 六 进 制 转 义 

\UFFFFFFFF 一 一 以 \U 开头 的 8 位 十 六 进 制 数 字 (参考 第 91 页 的 版 本 信息 ) 


< | 








~、 





~、 


it 


NIN 
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字符 组 及 相关 结构 


Character Classes and Class-Like Constructs 

现在 许多 流派 中 ， 都 有 多 种 方法 在 正则 表达 式 的 某 个 位 置 指定 一 组 字符 ， 不 过 最 通行 的 方法 还 是 使 用 

ar 

通 字 符 组 : [a-z] 和 [^Aa-z] 

我 们 已 经 介 绍 过 字符 组 的 基本 概念 ， 不 过 我 还 是 要 强调 ， 元 字符 的 规定 在 字符 组 内 外 是 有 大 别 的 。 例 
如 ， 在 字符 组 内 部 Tx | 永远 都 不 是 元 字符 ， 而 “-， 通常 都 是 元 字符 。 有 些 元 序列 ， 例 如 b, EFRA 
内 外 的 意义 是 不 一 样 的 〈 嗓 116) 。 

KEMAH, FREN are E A ele Cline E aid RN L 


有 字符 并 不 会 影响 执行 速度 〈 例 如 ，[0-9] 与 [908176354] 是 一 样 的 ) 。 相 反 ， 某 些 实现 方式 不 能 完全 优化 字 
从 组 (比如 Sun 提 供 的 Java regex package) ， 上 所 以 最 好 是 使 用 范围 表示 法 ， 因 为 如 果 有 天 别 ， 这 种 表示 法 的 
速度 会 快 一 些 。 

字符 组 通 篆 表示 肯定 断言 (positive assertion) 。 也 就 是 说 ， 它 们 必须 匹配 一 个 字符 。 排 除 型 字符 组 仍 
然 需要 匹配 一 个 字符 ， 只 是 它 没 有 在 字符 组 中 列 出 而 已 。 把 排除 型 字符 组 理解 为 “匹配 未 列 出 字符 的 字符 
组 ?或 许 更 容易 一 些 〈 请 务必 阅读 下 一 节 中 关于 点 号 和 排除 型 字符 组 的 警告 ) 。 ' [ALMNOP]| 通常 等 价 于 
[\x00-kQ-\xFF]) ， 即 使 在 规定 严格 的 8 位 系统 中 ， 这 仍然 成 立 ， 但 是 在 Unicode 之 类 字符 的 值 可 能 大 于 
255 (\xFF) 的 系统 中 ， 排 除 型 字符 组 |[ALMNOP]| 可 能 包括 成 干 上 万 个 字符 只 是 不 包含 L、M、N、 
O 和 P。 

请 务必 理解 使 用 范围 表示 法 的 基本 字符 组 。 例 如 ， 用 “ [a-Z]| 匹配 字母 就 很 可 能 存在 遗漏 ， 而 且 在 任 
何 情况 下 显然 都 不 是 “所 有 字母 ”。 而 [a-zA-Z] 则 能 匹配 所 有 字母 ， 至 少 对 于 ASCII 编 权 来 说 是 这 样 的 《请 参 
考 “Unicode JETE” FN \p{L} 2121) 。 当 然 ， 在 处 理 二 进 制 数 据 时 ， 字 符 组 中 的 \x80-\xFF’ 范 围 表 示 法 完全 
适用 。 

几乎 能 匹配 任何 字符 的 元 字符 点 号 

在 茶 些 工具 软件 中 ， 点 亏 用 来 缩 略 表示 可 以 号 配 任何 字符 的 字符 组 ， 而 在 其 他 工具 中 ， 点 亏 能 匹配 除 
了 换行 人 符 之 外 的 任何 字符 。 这 差别 很 细 敌 ， 但 如 果 所 用 的 工具 能 够 处 理 包 含 多 个 邮 辑 行 的 目标 文本 (或 者 
是 文本 编辑 需 中 的 多 个 馆 辑 行 的 文本 ) ， 它 束 非 党 重要 。 关 于 点 号， 需要 注 曹 的 有 : 

e 在 Sun 的 Java regex ”package 之 类 的 支持 Unicode 的 系统 中 ， 点 号 不 能 匹配 Unicode 的 行 终结 符 ( 喉 
109) . 

oL (111) 会 改变 点 号 的 匹配 规则 。 

ePOSIX 规 定 ， 点 号 不 能 匹配 NUL 〈 值 为 0 的 字符 ) ， 尽 管 大 多 数 脚本 语言 容许 文本 中 出 现 NULL (而 
且 可 以 用 点 号 来 匹配 ) 。 

点 号 ， 还 是 排除 型 字符 组 

如 末 所 使 用 的 工 基 能 够 在 多 行文 本 中 进行 搜索 ， 请 务必 注意 点 号 ， 它 在 通 利 情况 下 不 能 匹配 换行 符 ， 
而 排除 型 字符 组 TA") 通常 都 可 以 。 如 果 把 " .大 " | 替换 为 "[A"]x " | ， 可 能 会 带 来 意 想 不 到 的 效 
果 。 点 号 的 号 配 规定 一 般 可 以 通过 变换 匹配 模式 来 更 改 一 一 请 参考 第 111 页 的 “点 亏 通 配 模式 ”。 

BAAS SET 

Perl 和 PCRE (也 包括 PHP) sci A\CULAC HAS, BUTEA DT RT BE SS IN 
CHAI, FHI HERR ESET ATTA) 。 这 个 功能 很 危险 ， 如 果 运 用 不 当 ， 可 能 会 导致 内 部 钳 误 ， 所 以 只 有 
在 清楚 目 己 所 作 上 所 为 的 情况 下 ， 才 能 使 用 它 。 我 找 不 到 恰当 运用 的 例子 ， 所 以 下 文 不 再 提 及 。 

Unicode 组 合 字 符 序 列 : \X 

Perl 和 PHP 支持 用 \X 缩 略 表示 AP{MPp{M}* | ， 它 可 以 视 为 点 号 的 扩展 。 它 匹配 一 个 基本 字符 〔 除 
\p{M} 之 外 的 任何 字符 ) ， 之 后 可 能 有 任意 数目 的 组 合 字 符 《〈 除 \p{M} 之 外 ) 。 

之 前 已 经 介绍 过 〈 嗓 107) ，Unicode 体 系 包 括 基 本 字符 和 组 合 字 符 ， 二 者 可 以 合成 “看 起 来 ”的 单个 字 
符 ， 例 如 a (‘a’ 的 编码 是 U+0061， 读 音符 号 ` 的 编码 是 U+0300) 。 有 的 字符 可 能 包含 不 止 一 个 的 组 合 字 
符 。 例 如 ，“” 就 包括 ‘c"， 然 后 是 变 音 符 。 ， 最 后 是 短 音符 ““”(Unicode 编 码 分 别 是 U+0063、U+0327 
和 U+0306) 。 

如 果 希 望 匹配 “francais” 或 者 “franCais”"， 仅 仅 使 用 fran.ais | 或 者 fran[cC]ais | 还 不 够 保险 ， 因 为 此 方 
法 假设 ‘CG’ 用 单个 Unicode 代 码 点 U+00C7 表 示 ， 而 不 是 ‘eC* 加 上 变 普 符 (U+0063 加 上 U+0327) 。 如 果 需 要 专 
门 处 理 ， 可 以 使 用 fran (c, ? JỌ) ais, PIERE, H .fran\Xais| 取代 fran.ais| 是 个 好 办 法 。 

除了 能 够 匹配 结尾 的 组 合 字 符 之 外 ，\X 与 点 号 还 有 两 个 舌 别 。 其 一 是 ，\X 始 终 能 匹配 换行 符 和 其 他 
Unicode 行 终结 符 〈 嗓 109) ， 而 点 号 只 有 在 点 号 通 配 模式 (5111) ， 或 者 工具 软件 提供 的 其 他 匹配 模式 下 
才 可 以 。 另 一 点 是 ， 点 号 通 配 模式 下 的 点 号 无 论 什 么 情况 下 都 能 匹配 任何 字符 ， 而 “| 不 能 匹配 以 组 合 字 
符 开 头 的 字符 。 

字符 组 简 记 法 : \w id, is, \W, \D, \S 

通常 文 持 的 简 记 法 有 : 

\d 数字 等 价 于 [[0-9]| ， 如 果 工 具 软 件 支持 Unkdodg, [Ae ld ne iret biboawmew, linuxidc.com [] L 












































\D 非 数 字 字 符 等 价 于 [Ad] | 。 

Ww 单词 中 的 字符 一 般 等 价 于 [azA-Z0-9_]| 。 某 些 工 具 软 件 中 Ww) 不 能 匹配 下 画 线 ， 而 另 一 些 工具 
软件 的 \w| 则 能 支持 当前 locale C87 中 的 所 有 数字 和 字符 。 如 果 支 持 Unicode， |\w) 通常 能 表示 所 有 
数字 和 字符 ， 而 在 java.util.regex 和 PCRE 〈 也 包括 PHP) P, wj 严格 等 价 于 [a-zA-Z0-9_ ] | 。 

\W 非 单词 字符 等 价 于 Aw] 。 

\s 空白 字符 在 支持 ASCII[ 的 系统 中 ， 它 通常 等 价 于 [Antv] 。 在 支持 Unicode 的 系统 中 ， 有 时 包含 
Unicode 的 “换行 ?控制 字符 U+0085， 有 了 时 包含 “ 空 日 Cwhitespace) ”属性 \p{Z} 参见 下 一 市 的 介绍 )。 

\S 非 空白 字符 SF [ANs] o 

87 页 已 经 介绍 过 ，POSIX 的 locale 设 定 会 影响 这 些 简 记 符 亏 的 含义 〈 尤 其 是 \w) 。 文 持 Unicode 的 程 
序 中 ，\w 通 币 能 匹配 更 多 的 字符 ， 例 如 \p{L} (下 一 节 介 绍 ) 和 下 画 线 。 

Unicode 属 性， 字母 表 和 区 块 : \p{Prop}、\P{Prop} 

表面 上 看 ，Unicode 只 是 一 套 字 符 映 射 规则 C106) ， 其 实 Unicode 标 准 远 远 不 止 这 些 。 它 还 定义 了 每 
个 字符 的 性 质 〈qualities) ， 例 如 “这 个 字符 是 小 写字 母 ” “这 个 字符 是 从 右 往 左 看 的 ”，“ 这 个 字符 是 标记 
字符 Cmark) ， 它 必须 与 其 他 字符 一 同 使 用 ”等 等 。 

不 同 的 正则 表达 式 系统 对 这 些 属性 的 文 持 也 不 相同 ， 但 是 许多 文 持 Unicode 的 程序 能 够 通过 

[pfquality}| 和 '\P{quality} ; 支持 其 中 的 一 部 分 。 比 如 \p{L}) 就 是 个 简单 的 例子 ， 这 里 工 ' 的 意思 是 “ 字 
(letter) ”( 相 对 于 数字 number、 标 点 punctuation 和 口音 accent， 之 类 ) 。 呈 ’ 是 一 种 普通 属性 (general 
property， 也 称 为 分 类 category) 。 我 们 马上 会 了 解 到 ， 可 以 用 \p{.…} 和 “\P{...}| 来 测试 其 他 “属性 ”， 当 
然 文 持 最 广泛 的 还 是 冲 见 的 属性 。 

第 见 的 属性 请 见 表 3-8。 每 个 字符 (实际 上 是 代码 点 ， 包 括 那 些 目前 没有 对 应 字符 的 代码 点 都 可 以 用 
一 个 普通 属性 匹配 。 普 通 属 性 的 名 字 是 单个 字符 《例如 和 已: 表示 字母 letter， S RRIS symbol, $), 
但 是 菜 些 系统 中 可 以 用 多 个 字母 表述 属性 (例如 ‘Letter* 和 ‘Symbol’〉 ， 比 如 Perl 束 文 持 这 样 。 

在 茶 些 系统 中 ， 单 字母 属性 名 可 能 不 需要 花 括 号 〈 例 如 ， 用 \pL ”而 不 是 \p{L}， 。 有 的 系统 可 能 要 求 
(或 者 是 容许 ) 使 用 “2 或 5 前 级 〈 例 如 \p{ISL}) 。 讲 解 扩展 属性 Cadditional qualities) 时 ， 我 们 会 见 到 
要 求 使 用 Is/In 前 级 的 例子 ( 注 12) 。 

按照 表 3-9， 每 个 用 单字 符 表 示 的 普通 属性 可 以 进一步 分 为 多 个 双 字 母 表示 的 和子 属性 (sub- 
property) ， 例 如 “字母 〈letter) ”又 可 以 分 为 “小 写字 母 “大 与 字母 “标题 首 字 母 〈titlecase 
letter) ” “修饰 符 字 母 ? 和 "其 他 字母 "。 每 个 代码 点 能 且 只 能 属于 一 种 子 属性 。 

表 3-8: 基本 的 Unicode 属 性 分 类 





























sy 等 价 表示 法 及 摘 述 

\p{L} \p {Letter} 字母 

_NPp{M] \p {Mark} 不 能 单独 出 现 , 而 必须 与 其 他 基本 字符 一 起 出 现 (重音 符号 、 
CAE, $F) 的 字符 

\p{Z} | \p{Separator} 用 于 表示 分 隔 , 但 本 身 不 可 见 的 字符 (各 种 空白 字符 ) 

\p{S} \p{Symbol} 一 一 务 种 图 形 符 号 (Dingdats) 和 字母 符号 

\p{N} \p{Number} 一 一 任何 数字 字符 

\p{P} \p {Punctuation 一 -一 标点 字符 

\p{C} \p{Other} 一 一 匹配 其 他 任何 字符 (很 少 用 于 正常 字符 ) 


要 补充 的 是 ， 某 些 实现 方式 文 持 特殊 的 复合 子 属性 ， 例 如 用 \p{L&} 表 示 “ 分 大 小 写 的 《〈cased) ”字母 ， 
也 就 是 说 [\p{Lu}\p{LI\p{Lt}]) | 。 
表 3-9 还 给 出 了 某 些 实现 方式 支持 的 属性 名 的 全 称 〈( 例 如 ，“Lowercase Letter”， 而 不 是 “Ll”*) 。 按 照 


ee 了] 0 0 0 Unti ARANTES Ph 


Zl ‘LowercaseLetter’>., ‘LOWERCASE LETTER’, ‘Lowercase:Letter’. ‘lowercase-letter’) ， 不 过 ， 为 了 保持 
一 致 ， 我 推荐 使 用 表 3-9 中 的 形式 ) 。 

字母 表 (Scripts) 有 的 系统 能 够 按照 字母 表 (书写 系统 writing system) M4 '\pl...}) 来 匹配 。 例 
如 ， 用 \p{Hebrew} 匹 配 希 伯 来 文 独 有 的 字符 《但 不 包含 其 他 书写 系统 中 第 见 的 字符 ， 例 如 空格 和 标点 ) 。 

某 些 字母 表 是 基于 语言 的 《例如 印度 古 哈 拉 地 语 、 泰 国语 、 切 罗 基 语 ， 等 等 ) 。 有 的 覆盖 了 多 种 语言 
(例如 拉丁 文 、 西 里 尔 文 )， 还 有 些 语言 包含 多 种 字母 表 ， 例 如 日 语 的 字符 束 来 自 平 假名 、 刻 假名、 汉语 
和 拉丁 语 。 请 读者 参考 目 己 系统 的 文档 获取 完整 的 信息 。 

字母 表 不 会 包含 特定 的 书写 系统 中 的 所 有 字符 ， 而 只 包含 独 属 于 《或 者 几乎 独 属 于 ) 此 书写 系统 中 的 
字符 。 第 见 的 字符 ， 例 如 空格 和 标点 不 属于 任何 字母 表 ， 而 是 属于 通用 的 IICommon 伪 字母 表 (pseudo- 
script) » FA '\p{IsCommon}, 匹配。 还 有 一 个 伪 字 母 表 Inherited， 它 包括 从 其 所 属 的 字母 表 中 基本 字符 继 
承 而 来 的 组 合 字 符 。 

表 3-9: 基本 的 Unicode 子 属性 


[| 日 日 Linux[| || www.linuxidc.com [] [] 


属 性 
\p(Ll) 
\p{ Lu} 
\p{Lt} 


VELLE} 
\p{ im) 
\p{Lo} 


\p {Mn } 


\p {Mc} 


\p {Me } 
\p{2s) 


\p(Zl) 
\pi ap) 
\p{Sm)} 
\p{Se) 
\p{Sk) 


\Pp{So) 
\p (Nd) 


\p{N1L)} 
\p{No} 


\p{ Pd} 
\p{Ps) 
\p{ Pe} 
\p{ Pi) 
\p{P£} 
\p{ Pe} 
“PlPo) 
\p(Ce} 
\p{Cf£} 
\p{Co} 
\p(Cn) 


| \p{Non_ Spacing Mark} 


等 价 表示 法 及 说 明 
\p{Lowercase Letter} 一 一 小 写字 母 . 
\p({Uppercase Letter} KEEFE. 





\p{Titlecase Letter} 一 一 出 现在 单词 开头 的 字母 (Pde, FË DADS FA 
dz 和 大 写字 母 DZ 的 首 字 母 形式 )。 

\p{L1}, \p{Lu}, \piLt} FR 99 i iz, 

\p(Modifier Letter) VR Ase, AAR RES. 
\p{Other_Letter}——j24 ASU A WEE TI FR, Ci AB, 








阿拉 伯 语 、 孟 加 拉 语 、 泰 国语 、 日 语 中 的 字母 。 





用 于 修饰 其 他 字符 的 “字符 (Characters)”， 
SHAD, BAD, KH “Sits Foe Riz. 

\p{Spacing Combining Mark] 一 一 会 占据 一 定 宽度 的 修饰 字符 (各 种 语言 中 的 
大 多 数 “ 元 音 记 号 ”， 这 些 语言 包 持 孟加拉 语 、 印 度 吉 哈 拉 地 语 、 泰 米尔 语 、 秦 卢 
Bie, Aes. DAB, He Fe, taitin). 

\p{Encolsing Mark) 可 以 围 住 其 他 字符 的 标记 ， 例 如 圆 围 、 方 框 ， 钻石 型 等 。 
\p(Space Separator | 务 种 空 和 白字 社 ,例如 空格 罕 、 不 间断 空格 (non-break 
space) ， 以 及 务 种 固定 宽度 的 空白 守 和 村 。 

\p{Line Separator) -LINE SEPARATOR 3 4 (U+2028) 


a ku 


\p {Paragraph Separator }——PARAGRAPH SEPARATOR 字符 (U+2029), 


例如 重 














PtMath_ Symbol} 一 一 数学 符号 、+、 寺 、 表 示 分 数 的 横 线 ， 


\p{Currency Symbol|}——WipaS, $, ¢, E E€, 

\p{Modifier Symbol1 一 一 大 多 数 版 本 中 它 表 示 组 合 宁 待 ， 但 是 作为 功能 完整 的 
$e, 它们 有 自己 的 意义 。 

\p{Other Symbol }——4#Prphl as, HAAS. BRS, MRE A 
PLFA., FF, 

\p{Decimal Digit Number}——4ffPFHA PA O0 4]9 的 数字 (不 包括 中 广 、 
FE] t Ao eh). 

\p{Letter Number}——JL AF SRF. 

\p {Other Number] 一 一 作为 加 密 符 号 (superscripts) 和 记号 的 数字 ， 非 阿拉 伯 数 
学 的 数字 表示 字符 (AAPA, AX, 韩文 中 的 字符 )。 
\p{Dash_Punctuation!——4#PHeA iE 54 (hyphen) 和 得 划 线 (dash), 
\p{Open Punctuation}——{, af: (FH, 

\p{Close Punctuation | h “fad FH. 

\p{Initial_ Punctuation} (<a 

\p({Final_ Punctuation] >, SF, 

少数 有 特殊 语法 含义 的 标点 ， 如 下 画 线 。 
\p{Other Punctuationj 一 一 用 于 表示 其 他 所 有 标点 学 村 : !。&、.、!:， : F, 
\p {Control }——ASCII f Latin-| 编码 中 的 控制 池村 (TAB, LF, CR+#). 
“PIFormat]} 一 一 用 于 表示 格式 的 不 可 IL FF 

\p{Private Use} 分 配 与 私人 用 途 的 代码 点 (例如 公司 的 logo). 
\p{Unassigned}—— A fi} w A Pacey H fimul] [] www.linuxidc.com [] [] 














\p{Connector Punctuation) 








Xk (Block) . KIRA AEA ED 字母 表 ， 区 块 表 示 Unicode 字 人 符 上 映射 表 中 一 定 范 围 内 的 代 伍 
点 。 例 如 ，Tibetan 区 块 表 是 从 U+0F00 到 U+0FFF 的 256 个 代码 点 。 其 中 的 字符 ， 在 Perl 和 java.util.regex 中 
可 以 用 \p{fInTibetan} 来 下 配 ， 在 .NET 中 可 以 用 \p{IsTibetan} 来 轧 配 (细节 见 后 文 )。 

区 块 有 许多 和 种， 包括 对 应 大 多 数 书 写 系 统 的 区 块 “〈 和 硕 人 来 、 泰 米尔、 基本 拉丁 语 、 西 里 尔 文 等 等 ) ， 
以 及 特殊 的 字符 组 型 〈 员 币 、 和 箭头、 文本 框 、 印 刷 符 号 等 ) 。 

Tibetan 是 一 个 典型 的 区 块 ， 因 为 其 中 的 所 有 衬 符 都 是 按照 西藏 文 定义 的 ， 此 区 块 之 外 不 存在 专属 于 着 
语 的 字符 。 不 过 ， 区 块 仍然 不 如 字母 表 ， 原 因 如 下 : 

e 区 块 可 能 包含 未 赋值 的 代码 点 。 例 如 ，Tibetan 区 块 中 大 约 有 25% 的 代码 点 没有 分 配 字 符 。 

e 并 不 是 看 起 来 与 区 块 相 关 的 所 有 字符 都 在 区 块 内 部 。 例 如 ， 在 Currency KEP Wty AIS AY ot hi 
Bi, hia LMS. ec. £. © 和 ¥ (幸好 ， 这 时 候 我 们 可 以 用 currency 属 性 \p{Sc}) 。 

e 区 块 通 第 包含 不 相关 的 字符 。 例 如 ¥ (表示 “元 ”) 属于 Latin_1_Supplement 区 块 。 

® 属于 某 个 字母 表 的 字符 可 能 同时 包含 于 多 个 区 块 。 例 如 ,希腊 字符 同时 出 现在 Greek 和 
Greek Extended 区 块 中 。 

对 区 块 的 支持 比 对 字母 表 的 文 持 更 普遍。 不 过 这 两 者 很 容易 混淆， 因为 在 命名 上 存在 许多 重 辣 〈 例 
如 ，Unicode 同 时 提供 了 Tibetan 字 母 表 和 Tibetan 区 块 )。 

此 外 ， 按 照 下 页 的 表 3-10 所 示 ， 这 些 命名 本 里 也 没有 统一 的 标准 。 在 Perl 和 java.util.regex 中 ，Tibetan 区 
块 表示 为 \p{InTibetan}| ， 但 是 在 .NET 中 又 表示 为 \p{IsTibetan} (更 糟糕 的 是 ， 在 Perl 中 这 是 Tibetan 字 母 
表 的 吨 一 种 表示 法 ) 。 

其 他 属性 〈Other properties/qualities) 上 面 介绍 的 知识 并 不 是 通用 的 。 表 3-10 详 细 介 绍 了 它们 的 适用 情 
Dlo 

要 补充 的 是 ，Unicode 还 定义 了 许多 能 够 通过 i\p{...}| 结构 访问 的 属性 ， 其 中 包括 字符 的 书写 顺序 环 
视 〈 从 左 至 右 还 是 从 右 至 左 ， 等 等 ) 、 与 字 从 相关 的 元 首 ， 以 及 其 他 属性 。 有 些 实 现 方式 还 容许 用 户 根 据 
需要 临时 创建 属性 。 请 参考 其 体 的 程序 提供 的 文档 了 解 细 市 。 

表 3-10: 属性 /字母 表 / 区 块 的 支持 情况 

















[| 日 日 Linux[| || www.linuxidc.com [] [] 


特 性 PHP/PCRE 
/ / / 


erl 
基本 属性 ， 例 如 \p{LI]】 W 
V 基本 属性 缩 略 表示 法 ， 例 如 \PL / / / 
基本 属性 缩 略 表示 法 ,例如 \p{IsL} |v V 
VV 基本 属性 的 全 名 ,例如 \p{Letter} |v 


/复合 属性 ， 例 如 \p U6 vv | | iv 


V 字母 表 ， 例 如 \p{Greek) | W 
A ee 


V 区 块 ， 例 如 \p{Cvyrillic) 


V 区 块 全 名 ,例如 \p{InCyrillic) 
区 块 全 名 ,例如 \p{IsCyrillic) 





V 排除 功能 ， 例 如 P) / 

排除 功能 ， 例 如 NAp{^…】 / 
/\p{Any} | 等 于 \p{all) W 
/\p{Assigned} #P\P{Cn} FTC) | -F\P{cn} 
/\p{Unassigned} + F\p{Cn} | F + \p{Cn} TP \o {Cn} 





以 W 开 头 的 行 是 新 实现 方式 中 推荐 的 用 法 (请 参考 第 91 页 的 版 本 信息 ) 


简单 的 字符 组 减法 : [[a-z]-[aeiou]] 

NET 提供 的 字符 组 “减法 ”容许 我 们 在 字符 组 中 进行 减法 运算 。 例 如 ，“[[a-z]-[aeiou]] | 匹配 的 字符 就 是 
[a-z]; 能 够 匹配 字符 的 减 去 [aeiou]; 能 够 匹配 的 字符 ， 也 就 是 ASCII 编 码 中 小 写 的 非 元 音字 母 。 

另 一 个 例子 是 [\p{P}-[\p{Ps}p{Pej]| ， 它 能 够 匹配 \p{P} 中 除 [\p{Ps}\p{Pe}], 之 外 的 字符 ， 也 就 是 
说 ， 它 能 匹配 除了 》 和 “之 类 成 对 的 符号 之 外 的 所 有 标点 符号 。 

完整 的 字符 组 集合 运算 : [[a-zl]&&[Aaeiou]] 

Sun 的 Java regex package 中 的 字符 组 能 够 进行 完整 的 集合 运算 〈 并 、 减 、 交 ) 。 它 的 语法 有 别 于 前 一 节 
中 人 徐 单 的 字符 组 减法 〈 尤 其 是 ， 在 Java 中 匹配 小 写 非 元 音字 母 的 字符 组 [[a-z]&&[Aaeiou]j]) 。 在 详细 介绍 减 
法 之 前 ， 我 们 先 来 看 两 个 简单 的 集合 运算 : OR 和 AND。 

OR 容许 用 户 以 字符 组 方式 在 字符 组 中 添加 字符 : [abcxyz] 也 可 以 表示 为 [[abcj[xyz]]、[abc[xyz]] 或 
[[abc]xyz] 等 等 。OR 用 来 把 多 个 集合 合并 为 新 的 集合 。 从 概念 上 说 ， 它 有 点 像 多 种 语言 提供 的 “ 按 位 或 ?运算 
符 : 中 或 是 "om 。 在 字符 组 中 ，OR 只 不 过 是 一 种 简 记 法 ， 尽 管 包 括 排除 型 字符 组 在 某 些 情况 下 更 方便 。 

AND 对 两 个 集合 进行 概念 上 的 “与 ?运算 ， 只 保留 同时 属于 两 个 字符 组 的 字符 。 它 的 写法 是 在 两 个 字符 
组 中 添加 特殊 的 字符 组 元 字符 &&。 例 如 [Np{InThai}&&A\P{Cn}]， 它 通过 对 \p{InThai} 和 和 \P{Cn} 进 行 交 运算 
《只 保留 同时 属于 两 个 集合 的 字符 ) ， 匹 配 Thai 区 块 中 所 有 已 经 赋值 的 代码 点 。\P{..} 中 的 中 是 大 写 ， 匹 
配 不 具备 此 属性 的 字符 ， 所 以 \P{Cn} 匹 配 的 就 是 除 未 赋值 鸭 代码 点 之 外 的 代码 点 ， 也 惑 是 已 经 赋值 的 代码 
点 〈 要 是 Sun 能 够 识别 已 赋值 属性 (Assigned quality) ， 束 可 以 用 \p{Assigned} 蔡 换 \P{Cn}) 。 

请 不 要 泥 淆 OR 和 AND。 它 们 的 含义 取决 于 用 户 的 看 法 。 例 如 [[this][that]j] 读 作 “[this] 或 者 [that] 匹 配 的 字 
符 ”， 其 实 它 的 真正 意思 是 “[this] 和 [that] 能 够 匹配 的 所 有 字符 ”， 这 只 是 对 同一 个 问题 的 两 种 看 法 。 

相 比 之 下 ，AND 要 清楚 一 些 : [pf{InThaij&&xP{fCnj 访 作 “ 只 匹配 在 p{InThai}j 和 \P{Cn} 中 出 现 的 字 
符 ”， 尽 管 它 有 时 候 也 读 作 “匹配 属于 \p{InThai}j 和 \P{Cn} 的 交集 中 的 字符 。” 


看 法 的 不 同 可 能 会 造成 混乱 ， 我 叫做 OR 和 ARP 部 计算 上 AUK FD REN AON. HHNKEREROHONS [站 








以 集合 运算 从 进行 字符 组 的 减法 \P{Cn} 可 以 写作 [和 Np{Cn}]， 所 以 在 匹配 “Thai block 中 已 经 赋值 的 字 
符 ”? 时 ，[\p{InThai}&&\P{Cn}] 也 可 以 写作 [\p{InThai}&&[ 和 \p{Cn}]]。 这 样 的 改变 并 没有 多 少 意义 ， 只 是 它 
有 助 于 说 明 一 个 通用 的 模式 : “Thai bock COMETI EA Thai block 中 的 字符 ， 减 去 未 赋值 的 字 


„~ [\p{InThai}&&[^\p{Cn}]]_  \p{InThai} 、 \p{c 
符 " 更 好 理解 ， 于 是 我 们 知道 NEEDED SAE SPIN ge ee SP TID na ga BEE, 


这 样 就 回 到 了 本 节 开 头 “[[a-z]&&[Aaeiou]]i 的 例子 ， 现 在 我 们 知道 如 何 进行 字符 组 的 减法 了 。 其 模式 
为 :“ [this&&[^that]]| 表示 “[this] 减 去 [thatJ*"。 我 发 现 用 && 和 [人 ^..….] 进 行 双重 否定 很 难 记忆 ， 所 以 记 住 模式 
[..&&[ 人 ^...]]| 就 够 了 。 

通过 环视 功能 模拟 字符 组 的 集合 运算 如 果 所 使 用 的 程序 不 支持 字符 组 集合 运算 ， 但 支持 环视 功能 


[\p{InThai}&& [NP{Cn)] 1 可 以 用 环视 功能 写成 


02133) ， 则 可 以 自己 模拟 集合 运算 。 PLDTaL 
《工交 
(Prop tens) pt inthat ys ( 注 13) 。 尽 管 它 并 不 如 内 建 的 集合 运算 有 效率 ， 环 视 仍然 是 非常 方便 


的 做 法 。 这 个 例子 可 以 用 4 种 不 同 的 方式 来 实现 〈 在 .NET 中 需要 以 IsThai 奉 换 InThair 人 125) 。 
(?!\p{Cn}) \p{InThai} 
(2?=\P{Cn}) \p{InThai} 


\p{InThai} (?<!\p{Cn}) 
\p{InThai} (?<=\P{Cn}) 











POSIX“ 字 符 组 ” 方 括 号 表示 法 

我 们 通常 所 说 的 字符 组 ， 在 POSIX 标 准 中 称 为 方 插 号 表达 式 Cbracket expression) 。POSIX 中 的 术 
语 “ 字 符 组 ” 指 的 是 在 方 括 号 表达 式 ( 注 14) 内 部 使 用 的 一 种 特殊 的 功能 (special feature) ， 而 我 们 可 以 认 
为 它们 是 Unicode 的 字符 属性 的 原型 。 

POSIX 字 人 符 组 是 PZOSIX 方 括号 表达 却 使 用 的 几 种 特殊 元 字符 序列 之 一 。 比 如 [: lower: ] 表 示 当 前 
locale (= 87) 中 的 所 有 小 与 字母 。 对 英文 文本 来 说 ，[: lower: EF a-z。 因 为 整个 序列 只 有 在 方 括号 表 
达 式 内 才 是 有 效 的 ， 所 以 对 应 的 完整 的 字符 组 应 该 是 [[: lower: ]] | 。 这 种 表示 法 的 确 很 难看 。 但 是 ， 它 
比 [a-z] 更 好 用 ， 因 为 它 能 包含 5, 让 之 类 当前 locale 中 定义 的 “小 写字 母 ”。 

POSIX 字 符 组 的 详细 列表 根据 locale 的 变化 而 变化 ， 但 是 下 面 这 些 通 常 都 能 文 持 : 

: anum: ] 字母 字符 和 数字 字符 。 

: alpha: ] 字母 。 

: blank: ] 空格 和 制 表 符 。 

: cntrl: ] 控制 字符 。 

: digit: ] 数字 。 

: graph: JETZI 〈 即 空白 字符 ， 控 制 字 符 之 外 的 字符 ) 。 
: lower: | 小 写字 母 。 

: print: ] 类 似 [: graph: ]， 但 是 包含 空 日 字符 。 

: punct: ] 标点 从 号 。 

: space: | PTAW AAS Cl: blank: ]、 换 行 符 、 回 车 符 及 其 他 ) 。 
: upper: ] 大 与 字母 

: xdigit: ] 十 六 进 制 中 容许 出 现 的 数字 《例如 0-9a-fA-F) 。 

支持 Unicode 属 性 (121) 的 系统 可 能 会 在 Unicode 支 持 中 加 入 这 些 POSIX 结 构 。Unicode 属 性 结构 更 
为 强大 ， 所 以 如 果 可 能 ， 这 些 结构 应 该 有 提供 。 

POSIX“collating 序 列 ” 方 括号 表示 法 : [Lspan-ll.]] 

Local 可 以 包含 对 应 的 collating 序 列 ， 用 来 决定 其 中 的 字符 如 何 排序 。 例 如 ， 在 西班牙 语 中 ， 投 照 惯 
例 ，]1 两 个 字母 在 排序 时 作为 一 个 逻辑 字符 (例如 在 tortilla 中 〉 ， 排 在 1 和 mm 之 间 ， 日 尔 曼 语 字 母 B 位 于 s 和 和 t 中 
则 ， 但 是 排序 时 类 似 它 等 价 于 两 个 字母 ss。 这 些 规则 可 能 用 collating 序 列 命 名 来 表示 ， 例 如 ，span- 册 和 
eszet。 


collating FAAEE PSE 6 EEN BIASES p HiT TT. WRU Aut Conk EF 





r= P= Pe Pe Peo | | | mm 
e e e e e e e e e e 


持 与 POSIX 正 则 引擎 的 兼容 。 也 就 是 说 ，“[Aabc] | 能 够 匹配 汪 ' 两 个 字母 。 

collating ”序列 的 元 系 可 以 包含 在 方 插 写 表达 式 中 ， 使 用 [.....] 表 示 法 : ‘torti[[.span-ll. J]a | 匹配 tortilla。 
单个 collating 序 列 可 以 匹配 组 合 而 成 的 字符 。 此 种 情况 下 ， 方 括号 表达 式 可 以 匹配 多 个 实体 字符 。 

POSIX“ (5 STR Hh SABIE: [[=n=]] 

Ai locales MS PRESETS, ZANE AY FE EAT EPP ZI ER TERY DV ALAS OT 2 BIEN, Flocale Fy 
能 定义 了 这 样 一 个 等 价 类 ‘mn’?， 包 售 n 和 让， 或 者 是 为 一 个 等 价 类 ‘a?， 包 仿 a、& 和 和 a。 等 价 类 的 表示 法 类 似 [: 
.…: ]， 但 是 用 等 号 取代 冒号 ， 我 们 可 以 在 方 括号 表达 式 中 引用 这 些 等 价 类 : “[[=n=][=a=]]| 能 够 匹配 刚才 
出 现 的 任意 一 个 字符 。 

如 果 一 个 字符 等 价 类 有 的 名 称 只 包含 一 个 字母 ， 但 没有 在 locale 中 定义 ， 则 它 默 认 束 等 于 同样 名 字 的 
collating 序 列 。local 通 党 包含 作为 collating 序 列 的 普通 字符 [.a.]、[.b.]、[.c.] 之 类 一 一 如 果 没 有 定义 特殊 的 等 
价 类 ，“[[=n=][=a=]]| 就 等 于 [na]| 。 

Emacs 语 法 类 

GNU Emacs 不 支持 传统 的 \wj 、"'\s| 之 类 ; 相反 ， 它 使 用 特殊 的 序列 来 引用 “语法 类 (syntax 
classes) ”: 

\schar JE Ht Emacsi YA% P char ih HH F. 

\Schar 匹配 不 在 Emacs 语法 类 中 的 字符 。 

Nsw; 匹配 “构成 单词 Cword constituent) ”的 字符 ， 而 \s-| 匹配 “空白 字符 ”。 在 其 他 系统 中 ， 它 们 分 
别 写作 Nw 和 hsjo 

Emacs 的 特殊 之 处 在 于 ， 在 Emacs 中 ， 这 些 字 符 组 包含 的 字符 是 可 以 临时 更 换 的 ， 所 以 ， 构 成 单词 的 

字符 组 中 的 字符 可 以 根据 所 编辑 文本 的 变化 而 变化 。 


锚 点 及 其 他 * 零 长 度 断 言 > 


Anchors and Other"Zero-Width Assertions" 

inl RA At AR Et SEAN SD SC CAS, EAP ROCA H M E o 

行 /字符 串 的 起 始 位 置 和 人 VA 

脱 字符 A) 匹配 需要 搜索 的 文本 的 起 始 位 置 ， 如 果 使 用 了 增强 的 行 锚 点 匹配 模式 (112) ， 它 还 能 匹 
配 每 个 换行 符 之 后 的 位 置 。 在 某 些 系统 中 ， 增 强 模式 下 TA) 还 能 匹配 Unicode 的 行 终结 符 (109) 。 

如 果 可 以 使 用 ， 则 无 论 在 什么 匹配 模式 下 ，'\A | 总 是 能 够 匹配 待 搜索 文本 的 起 始 位 置 。 

行 /字符 串 的 结束 位 置 : $、\Z 和 \z 

从 下 一 页 的 表格 3-11 可 以 看 出 ,，“ 行 结束 位 置 Cend of line) ”的 概念 比 行 开头 位 置 要 复杂 。 在 不 同 的 工 
具 软 件 中 ，1'$| 的 意义 也 不 同 ， 不 过 最 常见 的 意思 是 匹配 目标 字符 串 的 末尾 ， 也 可 以 匹配 整个 字符 串 末 尾 
的 换行 符 之 前 的 位 置 。 后 一 种 情况 更 为 常见 ， 它 容许 s$| 《匹配 “以 

s 结 尾 的 行 >) 来 匹配 “…s 凶 ， 即 以 s 和 换行 符 结尾 的 行 。 

1$| 的 男 两 种 第 见 的 意思 是 ， 只 允 配 目标 文本 的 结束 位 置 ， 或 是 匹配 任何 一 个 换行 人 符 之 前 的 位 置 。 在 
未 些 Unicode 系 统 中 ， 这 些 规 则 中 的 换行 符 会 科普 换 为 Unicode 的 行 终结 符 〈 嗓 109 ) (Java 为 了 处 理 
Unicode 的 行 终结 符 ， 为 $| 设 定 了 非常 复杂 的 语意 S370) 。 

匹配 模式 (112〉 可 以 改变 S) 的 意义 ， 匹 配 字符 串 中 的 任何 换行 符 ( 或 者 是 Unicode 中 的 行 终结 
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如 果 支 持 ， MZ 通常 表示 “未 指定 任何 模式 下 ”1$| 匹配 的 字符 ， 通 常 是 字符 串 的 末尾 位 置 ， 或 者 是 在 
字符 串 未 尾 的 换行 符 之 前 的 位 置 。 作 为 补充 ， fw 只 匹配 字符 串 的 未 尾 ， 而 不 考虑 任何 换行 符 。 表 3-11 中 
列 出 了 少数 例外 





表 3-11: 脚本 语言 中 的 行销 扩 


[| 日 日 Linux[| || www.linuxidc.com [] [] 


条 E Java Perl PHP Python Ruby Tel NET 
正常 情况 


^ 匹配 字符 事 起 始 位 置 4 4 4 4 / 4 4 
~、 匹配 任意 换行 符 | 

$ 匹配 字符 串 的 结束 位 置 v J / / / / ri 
$ 匹配 字符 串 结尾 的 换行 符 t: Y F Y á 
S 匹配 任何 换行 符 Y : 

提供 增强 型 行 锚 点 模式 (F112) | o / W W / "4 
在 增强 型 行 锚 点 模式 中 

^ 匹配 字符 串 的 起 始 位 置 / / / / N/A / / 
^ 匹配 任何 换行 符 之 后 的 位 置 Vi / W / NA Ao / 
$ 匹配 字符 串 的 末尾 / W / J NA Vv / 
$ 匹配 任何 换行 符 之 前 的 位 置 J J / "i NA of W 
“\A 总 是 与 首 通 的 ^ 一 样 / / / / “4 / if 
\Z 总 是 与 普通 的 $ 一 样 v / / ia ss / / 
\z 总 是 匹配 字符 串 的 末尾 W W J NA NA V¥ / 


注 : 
在 这 些 情况 下 ，Sun 的 Java regex package 文 持 Unicode 的 行 终结 符 (109) 。 
Ruby 的 $ 和 ^ 能 匹配 字符 串 中 的 换行 符 ， 但 是 A 和 \Z 则 不 能 。 
Python 的 \Z 只 能 匹配 字符 串 的 结束 位 置 。 
Ruby 的 \A 与 ^ 不 同 ， 只 能 匹配 字符 串 的 起 始 位 置 。 
Ruby 的 \Z 与 $ 不 同 ， 可 以 匹配 字符 串 的 结尾 位 置 ， 或 是 字符 串 结尾 的 换行 符 之 前 的 位 置 。 
(请 参考 第 91 页 的 版 本 信息 ) 

玫 配 的 起 始 位 置 (或 者 是 上 一 次 思 配 的 结束 位 置 ) : \G 

AG) 前 先 出 现在 Perl 中 。 在 使 用 /g C751) 的 匹配 中 ，\G 对 达 代 操作 非常 有 用 ， 它 能 够 风 配 上 一 次 匹 
配 结束 的 位 置 。 在 第 一 次 选 代 时 ， NO 匹配 字符 串 的 开头 ， 与 VA) RE 

如 果 匹 配 不 成 功 ， \G | 的 匹配 会 重新 指向 字符 串 的 起 始 位 置 。 这 样 ， 如 果 重 复 应 用 某 个 正则 表达 式 ， 
例如 进行 Pearl 的 “s/.../.../g| 操作 ， 或 者 在 其 他 语言 中 调用 “ 找 出 所 有 匹配 (match all) ”函数 ， 在 匹配 失败 的 
同时 ，\G | 也 会 指向 字符 串 的 开头 位 置 ， 这 样 以 后 进行 其 他 类 型 的 匹配 操作 便 不 受 影响 。 

根据 我 的 观察 ，Perl 的 \G| 有 3 个 值得 注意 而 且 很 有 用 的 方面 : 

e |\G| 的 指 回 位 置 是 每 个 目标 字符 串 的 属性 ， 而 不 是 设 定 这 些 位 置 的 正则 表达 陈 的 属性 。 也 吏 是 说 ， 
多 个 正则 表达 式 可 以 依次 对 同一 个 字符 串 进 行 匹配 ， 都 使 用 上 一 轮 匹配 设 定 的 \G | 。 

eper! 的 正则 运算 符 有 一 个 选项 (Perl 的 /c 修 饰 符 号 315) ， 它 规定 了 ， 如 果 匹 配 失败 ， 不 要 重新 设 定 
AG ， 而 只 是 保持 之 前 的 值 不 变化 。 如 果 结 合 上 面 那 一 点 ， 就 可 以 从 某 个 位 置 开始 尝试 用 多 个 正则 表达 式 
进行 中 配 ， 直 到 匹配 能 够 成 功 ， 然 后 在 下 面 的 文本 中 继续 寻找 匹配 。 

e [\G | 对 应 的 属性 可 以 用 与 正则 表达 陈 无 关 的 结构 〈Perl 的 pos 函 数 空 313) KREAMMEN. WHER A 
硕 望 设 定 这 个 位 置 来 “规定 ”从 什么 位 置 开 始 寻找 匹配 ， 以 及 只 从 那个 位 置 开 始 的 匹配 。 同 样 ， 如 果 语 言 文 
持 本 条 功能 ， 而 没有 直接 提供 上 一 条 功能 ， 我 们 可 以 用 本 条 功能 来 模拟 。 

下 页 的 补充 内 容 中 有 个 例子 展示 了 这 些 特 性 的 用 法 。 除 了 这 些 便捷 之 外 ，Perl 的 \G | 还 存在 一 个 问 
天 ， 即 它 必 须 出 现在 正则 表达 陈 的 开头 ， 这 样 才能 正常 工作 。 不 过 笠 运 的 是 ， 这 似乎 是 最 自然 的 用 法 。 

之 前 匹配 的 结束 位 置 ， 还 是 当前 匹配 的 开始 位 置 ? 

由 上 上 Dinux [|] www.linuxide.com [] [| 
































不 同 的 实现 方式 之 间 存 在 一 个 区 别 ， \G | 匹配 的 到 底 是 “当前 匹配 的 起 始 位 置 * 还 是 “前 一 次 匹配 的 结 
束 位 置 ?。 在 绝 大 多 数 情 况 下 ， 这 两 者 是 等 价 的 ， 所 以 大 多 数 时 候 这 个 问题 并 不 要 紧 。 但 也 有 些 不 常见 的 情 
况 下 ， 它 们 是 有 区 别 的 。215 页 有 个 例子 说 明了 这 种 情况 ， 不 过 最 容易 的 还 是 用 一 个 专门 的 例子 来 理解 : 把 
x? | 应 用 到 ‘abcde?。 这 个 表达 式 能 够 在 ‘abcde’? 匹 配 成 功 ， 但 其 实 它 没有 匹配 任何 文本 。 在 进行 全 局 查 
找 -替换 时 ， 正 则 表达 式 会 重复 应 用 ， 每 次 处 理 上 一 次 操作 之 后 的 文本 ， 除 非 传动 装置 会 做 些 特 别 的 处 
理 , “上 次 匹配 完成 的 位 置 ?总 是 它 开 始 的 位 置 。 为 了 避免 无 穷 循环 ， 在 这 种 情况 下 传动 装置 会 强行 前 进 到 
下 一 个 字符 C2148) ， 如 果 对 'abcde' 应 用 sx? /! /g， 结 果 就 是 ‘! al b! c! d! el? 

传动 装置 这 样 处 理会 带 来 一 个 问题 : “上 一 次 匹配 的 终点 ?不 等 于 “本 次 匹配 的 起 点 ”。 如 果 是 这 样 ， 问 
题 就 来 了 : NG) 匹配 哪个 位 置 呢 ? 在 Perl 中 ， 对 ‘abcde? 应 用 s\Gx? /! /g 得 到 “! abcde’?， 所 以 我 们 知道 ， 
在 Pen 中 ， NG) 只 匹配 上 一 次 匹配 的 结束 位 置 。 如 果 传 动 装置 自行 驱动 ，Perl 的 \G 肯 定 无 法 匹配 。 

另 一 方面 ， 在 其 他 茶 些 工具 软件 中 使 用 同样 的 得 找 - 蔡 换 命 令 ， 会 得 到 '! al b! c! d! e! '， 也 就 是 说 
\G 是 在 每 次 匹配 的 起 始 位 置 匹配 成 功 ， 然 后 由 传动 装置 进行 驱动 。 

关于 \G | 的 匹配 ， 也 不 能 完全 相信 文档 ， 微 软 的 .NET 和 Sun 的 Java 文 档 ， 在 我 通知 这 两 家 公司 之 前 ， 
都 是 错误 的 《然后 他 们 才 修 正 ) 。 现 在 的 状态 就 是 ，PHP 和 Ruby 中 的 NAG) 指向 当前 匹配 的 开头 位 置 ， 而 
Perl 、java.utilregex 和 .NET 克 配 上 一 次 匹配 的 结束 位 置 。 
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Perl 中 \G 的 高 级 用 法 


下 面 的 程序 对 $html 中 的 HTML 代码 进行 简单 的 校 验 ， 确 保 其 中 只 有 少数 几 种 HTML 
结构 (例如 <IMG> 和 <A>， 以 及 ggt;)。 在 Yahool! 我 用 这 种 方法 确保 用 户 提交 的 HTML 
符合 某 些 规范 。 
这 段 代码 中 最 重要 的 就 是 Perl 的 m/…/gc 匹配 操作 符 ， 它 会 把 这 个 正则 表达 式 一 次 性 
应 用 到 目标 字符 串 ， 下 一 次 匹配 从 上 一 次 成 功 匹 配 之 后 的 文本 开始 ， 如 果 匹 配 失 败 ， 
也 不 会 重新 设 定 position (7315), 
ie, 我 们 就 能 用 包含 多 个 表达 式 的 “tag team” 来 检查 字符 事 。 从 理论 上 说 ， 它 好 像 
对 所 有 这 些 表 达 式 进行 整体 的 先 代 ， 但 是 这 段 程序 的 执行 单位 不 是 一 次 表达 式 而 是 一 
次 匹配 ， 而 且 能 够 临时 新 增 或 排除 菜 些 表达 式 。 

my Sneed close anchor = 0; # 如 果 遇 见 了 <A> 而 没有 对 应 的 </A>， 则 返回 True 


while (not $html =~ m/\G\z/gc) # 在 整个 字符 串 没有 处 理 完 之 亲 
{ 
if ($html =~ m/\G(\wt)/gc) 1 
PRSI 中 包含 数字 或 单词 一 可 以 检查 语言 的 规范 性 ..， 
elsif ($html =~ m/\G[*<>&\w]t/gqc) I 
# ”其 他 非 HTML 代码 一 一 无 关 紧 要 
elsif ($html =~ m/\G<img\s+([^>]+)>/gci) 1 
...&@4 image tag 可 以 检查 它 是 否 符 合 规 范 ,.. 





— 


| 





elsif (not Sneed close anchor and $html =~ m/\G<A\s+([*>]+)>/qci) { 
.,。. 包 念 超 链 接 ， 这 里 可 以 进行 验证 . .， 


— 


Sneed close anchor = 1; # 我 们 现在 需要 的 是 </A> 
elsif ($need close anchor and $html =~ m{\G</A>}gci) { 
Sneed_close anchor = 0; # 需求 已 经 满足 ， 不 再 容许 出 现 
elsif ($html =~ m/\G&(#\d+<\w+) ; /ac) | 
# Sof Megt; 和 8&#1237 之 类 的 entity 

else {# 此 处 完全 无 法 匹配 ，\ 必 然 有 错误 。 记 下 当前 位 置 ， 从 HIML 中 提取 若干 字符 ， 报 告 错误 
my Slocation = pos(Shtml); # 记 下 这 段 HTML 的 起 始 位 置 
my (Sbadstuff) = Shtml =~ m/\G(.{1,12})/s; 
die "Unexpected HTML at position $location: $badstuff\n"; 
} 

} 


Td 


一 一 


# 确保 没有 孤立 的 <A> 
if (Sneed close anchor) 1 
die "Missing final </A>" 
} 
| [1 [] [] Linux{] |] www.linuxidce.com |] [] 


单词 分 界 符 : \b、\B、\<、\>.. 

单词 分 界 符 的 作用 Sirah R 也 古 匹 配 字 符 串 中 的 茶 些 位 置 。 单 词 分 界 符 可 以 分 为 两 大 ， 一 关中 
单词 起 始 位 置 分 界 符 和 结束 位 置 分 界 符 是 相同 的 〈 通 稼 是 \ 科 和 \> ) ， 为 一 类 则 以 统一 的 分 界 符 来 下 配 

(通常 是 b) 。 两 类 都 提供 了 非 单词 分 界 符 序 列 〈 通 利 是 B) 。 表 ”3-12 给 出 了 一 些 例子 。 如 果 所 使 用 的 工 

具 软 件 没有 提供 单独 的 起 始 位 置 和 结束 位 置 分 界 符 ， 但 文 持 环 视 功 能 ， 用 户 也 可 以 用 它 来 模拟 那 两 种 单词 
分 界 人 符 。 在 下 面 的 表格 中 ， 如 打 程 序 本 喘 没 有 提供 分 开 的 单词 分 界 符 ， 我 会 列 出 实践 中 的 做 法 。 

单词 分 界 符 通 前 可 以 这 样 理解 ， 这 个 位 置 的 一 边 和 是 “单词 字符 Cword character) ”， 男 一 边 则 不 是 。 
种 工具 软件 对 “单词 字符 ?的 理解 都 不 一 样 ， 对 单词 这 界 的 理解 也 是 这 样 。 如 有 条 单词 分 界 符 等 于 \w 当 然 好 
办 ， 但 很 多 时 候 事实 并 非 如 此 。 人 例如， 在 PHP 和 java.utilregex 中 ，\w 只 能 匹配 ASCII 字符 ， 而 不 是 
Unicode 字符 ， 所 以 在 表格 中 我 会 使 用 带 有 Unicode 单 词 属性 \pL (这 是 \p{L} | MSMR aI 121) 的 环 
视 功 能 

无 论 单词 分 界 符 怎么 定义 “单词 字符 ”， 单 词 分 界 人 符 的 训 试 通 香 只 是 简单 的 字符 相 邻 测试 。 所 有 的 正则 
引擎 都 不 会 对 单词 进行 语意 分 析 ; wee ‘NE14AD8” 是 一 个 单词 ， 而 “M.LT.” 不 是 。 

MUP IRL C2 Sese) 5 C2 1s MERRIMAC? <a. CP <b wd 

FE BU — Fe AE HH A G rds ZS” (59) pumas 我 们 已 经 介绍 过 顺序 环视 和 逆序 环视 
结构 《统称 为 环视 ) 。 但 关于 它 们 还 有 很 重要 的 一 RASTA, Abate MZ EDA BE 够 出 现 什么 样 的 表达 
却 。 大 多 数 实 现 方式 都 限制 了 逆序 环视 中 的 表达 式 的 长 度 nny 顺序 环视 则 没有 限制 ) 。 

Perl 和 Python 的 限制 是 最 严格 的 ， 逆 序 环 视 只 能 匹配 固定 长 度 的 文本 。 使 用 〈? <! \w) 和 (? <! 
thislthat) 不 会 出 错 ， 但 是 ©? <! books? ) 和 (? <! Awt: ) 则 不 行 ， 因 为 它们 匹配 的 文本 的 长 度 是 
不 确定 的 。 某 些 情况 下 ，(? <! books? ) 可 以 重 写 为 | (? <! book) (? <! books) | ， 尽 管 第 一 眼 
看 上 去 它 并 不 好 理解 。 











23-12; 若干 工具 软件 中 使 用 的 单词 分 界 符 元 字符 
程序 单词 开始 … 结 束 单词 分 界 符 EARR 


\B 
\B 








PHP 
Python 
Ruby 
LIAR ER AIt ASCI 中 的 字符 (或 者 是 基于 locale 的 8 位 编码 数据 ) 有 效 ， 即 使 该 流派 支持 
Unicode 也 是 如 此 。 
(请 参考 第 91 页 的 版 本 信息 
更 高 一 层次 的 支持 容许 逆序 环视 中 出 现 不 同 长 度 的 多 选 分 支 所 以 〈? <! books? ) 可 以 写作 (? 
<! book|books) 。PCRE (因此 也 包括 PHP 中 的 preg 人 套件 ) 文 持 此 功能 
最 高 层次 的 支持 可 以 匹配 任意 长 度 的 文本 ， 只 是 其 长 度 不 能 为 无 限 。' (? <! books? ) | 可 以 直接 


使 用 ， 但 是 (? <! Awt: ) 则 不 行 ， 因 为 \w+ 能 够 风 配 的 长 度 没 有 限制 。Sun 的 Java regex package x FFX 
样 。 IRI Linux| | [| www.linuxidc.com [| [| 


融 问 题 本 映 来 说 ， 这 三 级 文 持 其 实 是 一 样 的 ， 因 为 它们 都 表达 同样 的 意思 ， 尽 管 有 的 表达 方式 可 能 不 
太 好 看 ， 而 且 对 匹配 的 长 度 进 行 了 严格 的 限制 。 中 间 一 级 只 不 过 是 “语法 (syntactic sugar) ”， 表 达 方 式 更 
美观 而 已 。 而 第 四 级 支持 容许 逆序 环视 结构 中 的 子 表达 式 匹配 任意 长 度 的 文本 ， 甚 至 包括 O <! 
Nw: ) | 。 微 软 的 .NET 就 文 持 这 一 级 ， 它 无 疑 是 最 棒 的 ， 但 是 如 果 运 用 不 当 ， 也 可 能 市 来 严重 的 效率 问 
题 〈 如 果 逆 序 环视 能 够 匹配 任意 长 度 的 文本 ， 引 擎 必须 从 字符 串 的 起 始 位 置 开 始 检查 逆序 环视 表达 式 ， 如 
果 逆 序 环 视 是 从 长 字符 串 的 尾 问 开始 的 ， 这 样 束 会 溪 费 许多 工夫 ) 。 

注释 和 模式 修饰 从 
Comments and Mode Modifiers 


在 许多 流派 中 ， 使 用 下 面 的 结构 ， 束 能 够 在 正则 表达 式 内 部 ， 切 换 使 用 之 前 介绍 的 正则 表达 式 模式 和 
匹配 模式 (110) 。 


模式 修饰 符 : (? modifier) ， 例 如 C? i) AC? D 

现在 ， 有 许多 流派 容许 在 正则 表达 式 中 设 定 匹 配 模式 Ce 110) 。 常 见 的 就 是 (? i) | ， 它 会 启用 不 
区 分 大 小 写 的 匹配 ， 而 “〈? -i) | 会 停 用 此 功能 。 例 如 ， <B> C? i) very (? -i) </B>, 会 对 中 间 的 
very| 进行 不 区 分 大 小 写 的 匹配 。 而 两 端的 tag 仍然 必须 为 大 写 。 它 可 以 匹配 (<B>VERY</B>’ 和 ‘<B 
>Very</B>’, (AA REIL <b> Very </b>’. 

这 个 例子 在 大 多 数 支 持 ”(〈? i) | 的 系统 中 都 可 以 运行 ， 例 如 Perl、PHP、java.utilregex、Ruby GE 
15) 和 .NET。 在 Python 和 Tecl 中 则 不 行 ， 因 为 它们 不 支持 (? -i) | 。 

除 Python 之 外 ， 大 多 数 实现 方式 中 ，“ (? i) | 的 作用 范围 都 只 限于 括号 内 部 〈 也 就 是 说 ， 在 闭 括号 
之 后 就 失效 ) 。 所 以 ， 我 们 可 以 拿 掉 O -D | ， 将 整个 不 需要 区 分 大 小 写 的 部 分 放 在 一 个 括号 里 ， 把 
| (3 i) | 放 在 最 前 面 : [<B> (? : (? i) very) </B>). 

模式 修饰 符 中 能 够 出 现 的 不 只 有 宁 。 在 大 多 数 系 统 中 ， 我 们 至 少 可 以 使 用 表 3-13 列 出 的 修饰 符 。 有 的 
系统 还 提供 了 更 多 的 选项 。 比 如 PHP 区 提供 了 少数 其 他 选项 《〈 哑 446) ，Tdl 也 是 如 此 (请 参考 文档 ) 。 


表 3-13: “i WURDE iB TF BY 








字 母 fe 式 

不 区 分 大 小 写 的 匹配 模式 (7110) 
宽松 排列 和 注释 模式 (7111) 

点 号 通 配 模式 〈 字 111 ) 

增强 的 行 锚 点 模式 (112) 


模式 作用 范围 : (? modifier: ...) ， 例 如 C? i: ...) 

如 果 所 使 用 的 系统 支持 模式 修饰 范围 ， 这 样 前 一 节 的 例子 可 以 更 加 简化 。'(? i: ...) | 表示 模式 修 
饰 符 的 作用 范围 只 有 在 括号 内 有 效 。 这 样 ， <B> (? : (? i) very) </B>, 就 可 以 化 简 为 [<B> 

(? i: very) </B>, | ào 

如 果 支 持 ， 这 种 格式 一 般 可 以 应 用 于 所 有 的 模式 修饰 符 字 母 。Tcl 和 Python 都 支持 (? i) | 格式 ， 
但 是 不 支持 (? i: ...) | 格式 。 

JERE: (? 4...) MF... 

某 些 流派 支持 用 OC? #.…) | 添加 注释 。 实 际 上 ， 如 果 流 派 支持 宽松 排列 和 注释 模式 C111), Be 
很 少 使 用 这 种 功能 。 不 过 ， 如 果 在 字符 串 文字 中 很 难 搬入 换行 他 ， 用 这 种 格式 加 入 注释 束 非 党 方便 ， 例 如 
VB.NET 束 是 如 此 (99, 420) 。 

\Q...\E 是 由 Perl1 引 入 的 ， 它 会 消除 其 中 际 \E 之 外 所 有 元 字符 的 特殊 含义 “如 果 没 有 \E， 束 会 一 直 作 用 到 


EMIRA o HERP FATA BCS SCI a AL AAR DAE 


m=ll a 


3 v x 


举例 来 说 ， 为 了 啊 应 Web 检 索 ， 我 们 可 能 希望 把 用 户 输入 的 内 容 保 存在 $query 中 ， 然 后 使 用 
m/$querwWi。 但 是 ， 如 果 $query 包 含 某 些 字符 ， 例 如 'C: \WINDOWSV， 结 果 是 运行 时 错误 ， 因 为 这 不 是 一 
个 合法 的 正则 表达 式 《〈“ 了 最 后 有 一 个 单独 的 反 笠 线 ) 。 

[QAE] 可 以 解决 这 个 问题 。 如 果 在 Perl 中 使 用 mAQ$query\E/i， 则 $query 就 从 ‘C: WIN-DOWSY 变 成 
QQ: WWINDOWS\N| ， 结 果 能 找到 用 户 期 望 的 ‘C: \WINDOWSV。 

但 是 在 面 同 对 象 和 程序 式 处 理 (号 95) 中 ， 这 个 特性 的 用 处 要 打折 扣 。 在 构建 需要 用 在 正则 表达 式 中 
的 字符 串 时 ， 有 很 方便 的 水 数 对 这 个 值 “ 上 保险 ”， 以 便 用 在 正则 表达 式 中 。 例 如 ， 在 VB 中 ， 我 们 可 以 使 用 
Regex.Escape ('=432) ; PHP 提 供 了 preg_quote 函 数 (号 470) ，Java 有 quote 方 法 (1395) 。 

就 我 所 知 ， 支 持 \Q...E| 的 引擎 只 有 javautiLregex 和 PCRE (也 包括 PHP 的 preg 套 件 ) 。 请 注意 ， 我 刚 
刚 提 到 ， 这 个 功能 是 在 Perl 中 引入 的 (而 且 我 给 出 了 Perl 的 例子 )， 你 可 能 觉得 很 奇怪 ， 为 什么 刚刚 没有 提 
到 Perl。Perl 支 持 正则 文字 中 的 \Q..\E 《也 就 是 直接 出 现在 程序 中 的 正则 表达 式 ) ， 但 是 不 能 在 可 能 使 用 插 
值 的 内 容 和 变量 上 使 用 。 细 市 问题 请 参考 第 7 章 C290) 。 

在 低 于 1.6.0 的 Java 中 ，java.util.regex 对 字符 组 中 的 \Q...\E | 支持 是 不 可 靠 的 ， 不 建议 使 用 。 
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Grouping, Capturing,Conditionals,and Control 

捕获 /分 组 插 号 : ©...) FIM, \2, ... 

普通 的 无 特殊 意义 的 括号 通常 有 两 种 功能 : 分 组 和 捕获 。 普 通 括号 常见 的 形式 是 C. | ， 但 有 的 流 
派 中 使 用 下 C.A | ， 例 如 GNU Emacs, sed, vifllgrep. 

如 41、43 和 57 页 的 图 所 示 ， 捕 获 型 插 写 的 编号 是 按照 开 插 写 出 现 的 次 序 ， 从 左 到 右 计 算 的 。 如 果 提 
供 了 反 向 引用 ， 则 这 些 括号 内 的 子 表达 式 匹 配 的 文本 可 以 在 表达 式 的 后 面部 分 用 \1| 、'\2| 来 引用 。 

括 写 的 常用 功能 之 一 是 从 字符 串 中 提取 数据 。 括 写 中 的 子 表达 式 思 配 的 文本 (也 可 以 称 为 “括号 逻 配 文 
AS (the text matched by the parentheses) ”) 在 不 同 的 程序 中 可 以 通过 不 同 的 方式 来 引用 ， 例 如 Perl 的 $1 和 
$2( 常 见 的 错误 是 在 正则 表达 式 之 外 使 用 \1| ， 这 种 形式 只 在 sed 和 vi 中 能 用 ) 。 下 一 页 的 表 3-14 说 明了 各 
种 程序 中 ， 匹 配 完成 之 后 访问 文本 的 方法 。 它 还 说 明了 访问 整个 表达 式 匹 配 的 文本 ， 或 者 东 一 组 捕获 型 括 
写 所 允 配 文本 的 做 法 。 

仪 用 于 分 组 的 插 写 : CP? : ...) 

仅 用 于 分 组 的 括号 (? : ...) | 不 能 用 来 提取 文本 ， 而 只 能 用 来 规定 多 选 结构 或 者 量词 的 作用 对 象 。 
它们 不 会 按照 $1、$2 之 类 编号 。 在 | (1lone) (? : andlor) (2ltwo) | 匹配 之 后 ，$1 包 含 ‘1’ 或 者 ‘one’， 
$2 包含 2’ 或 者 ‘two’。 只 用 于 分 组 的 括号 也 叫 非 捕 获 型 插 写 (non-capturing parentheses) 。 

非 捕获 型 括号 的 价值 体现 在 好 几 个 方面 。 它 们 能 够 把 复杂 的 表达 式 变 得 清晰 ， 这 样 谈 者 不 会 担心 在 其 
他 地 方 用 到 $1 会 产生 混乱 。 而 且 它 们 还 有 助 于 提高 效率 。 如 末 正 则 引擎 不 需要 记录 捕获 型 括号 匹配 的 内 
容 ， 速 度 会 更 快 ， 所 用 的 内 存 也 更 少 《〈 第 6 草 详 细 讲 解 效 率 问 题 ) 。 

非 捕 获 型 括 亏 的 另 一 个 用 途 是 利用 多 个 成 分 构建 正则 表达 式 。 在 第 76 页 的 例子 中 ，$Host-nameRegex 保 
存 的 是 用 来 匹配 主机 名 的 正则 表达 式 。 如 条 使 用 它 来 提取 主机 名 两 器 的 空 日 ， 在 Perl 中 是 m/ Osx) 
$HostnameRegex (\s 类 ) /。 然 后 $1 和 $2 分 列 你 存 开 尖 和 结尾 的 空 日 ， 但 结尾 的 空 晶 其实 是 你 存在 $4 中 的 ， 
为 $HostnameRegex 包 含 两 组 捕获 型 括号 。 

$HostnameRegex=ar/[-a-z0-9]+(\.[-a-z0-9]+) * \.(com|edulinfo)/i; 

表 3-14: AF LAE RP i AL TSR CAS A 
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a OF 第 一 组 括号 匹配 的 文本 














GNU egrep N/A N/A 
GNU Emacs We 0) (match-string 1) 
(replacement F # ? 4 \&) (replacement + # P 4\1) 
Substr (Stet, RSTART, RLENGTH | | 

GNU awk adanan aih i 字符 事 中 为 \&) | \l (在 gensub 替换 中 ) 

MySQL N/A N/A 

PHP F450 | Smatches [0] $matches [1] 

Python *97 | MatchObj.group (0) MatchObj . group (1) 

Ruby $1 

GNU sed 能 出 现在 regex fo replacement 中 ) 
Java #95 | Matcher TA Matcher = group (1) _ 

Tel 通过 regexp 命令 设置 为 用 户 选择 的 变量 

VB.NET 796 MatchObj . Groups (1) | 

CH MatchObj.Gropus [0] MatchObj..Groups [1] 





v i 


(请 参考 第 91 页 的 版 本 信息 ) 


如 果 这 两 组 括 写 是 韭 捕获 型 的 ， ag ea alain aca 另 一 种 办 法 是 使 用 
命名 捕获 ， 上 尽管 Perl] 没 有 提供 这 种 功能 ， 我 们 还 是 会 介绍 

命名 捕获 : (? <Name>...) 

Python 和 PHP 的 preg 引 擎 ， 以 及 .NET 引 擎 ， 都 能 够 为 捕获 内 容 命名 。Python 和 PHP 使 用 的 语法 是 (? 
P<name>...) | ， 而 .NET 使 用 | (? <name>...) |。 我 更 豆 欢 .NET 的 语法 。 下 面 是 一 个 .NET 的 例子 : 

[ \b(? < Area >\d\d\d\)-(? < Exch >\d\d\d)-(? < Num >\d\d\d\d)\b , 

在 Python/PHP 中 是 这 样 : 

| \b(?P < Area>\d\d\d\)-(?P <Exch>\d\d\d)-(?P <Num>\d\d\d\d)\b | 

这 个 表达 陈 会 用 美国 电话 号 码 的 各 个 部 分 “填充 ?Area、 Exch 和 Num 命 名 的 内 容 。 然 后 我 们 可 以 通过 名 
称 来 访问 各 个 括 亏 捕获 的 内 容 ， 例 如 在 VB.NET 和 大 多 数 .NET 语 言 中 ， 可 以 使 用 RegexObj.Groups C" Area 
") ， 在 C# 中 使 用 RegexObj.Groups[ " Area" ]， 在 Python 中 使 用 RegexObj.group 〈(" Area" ) ， 在 PHP 中 
使 用 $matches[ " Area " ]。 这 样 程 序 看 起 来 更 清晰 。 

如 果 要 在 正则 表达 式 内 部 引用 捕获 的 文本 ，.NET 中 使 用 kk<Area> | ，Python 和 PHP 中 使 用 | C? 
P=Area) | 。 


在 Pyhon 和 .NET (但 不 包括 PHP〉 中 ， 可 以 在 同一 个 表达 式 中 多 次 使 用 同样 的 命名 。 例 如 美国 电话 号 
PSK SMa eRe HHH) RE HHH’, -y 我 们 可 以 使 用 (用 .NET 语 法 ) : l.. 
(2: \ ( (? <Area>\d\d\d) \) | (? <Area>\d\d\d) -) ... 。 无论 哪 一 组 匹配 成 功 ， 都 会 把 3 位 的 区 号 
保存 到 Area 中 。 

固化 分 组 : (? >...) 

GOR EAM Y AEE N S| SEA VOB Ce 169) , MRA DBR a. FERRARA, We ABS 
号 内 的 子 表 达 式 匹配 之 后 ， 匹 配 的 内 容 就 固定 下 来 〈 固 化 (atomic〉 下 来 无 法 改变 ) ， 在 接 下 来 的 匹配 过 
程 中 不 会 变化 ， 除 非 整 个 固化 分 组 的 括号 都 被 弃 用 ， a ai 下 面 这 个 简单 的 例子 会 帮 且 
我 们 理解 这 种 匹配 的 “固化 ?性 质 。 Linux WWW. linuxide. com 





[ixl | 能 够 匹配 iiHola! '， 但 是 如 果 .大 | 在 固化 分 组 i CO >. kD! | 中 就 无 法 匹配 。 在 这 两 种 
情况 下 ， [oe 部 会 首先 匹配 尽 可 能 多 的 内 容 | ey ) 但 是 之 后 的 ! | 无 法 匹配 ， 会 强迫 .大 | 
PETC AU VLBA REA AE Ge HS! 7) 。 如 采 使 用 了 固化 分 组 ， 残 无 法 实现 ， 因 为 | .类 | 在 固化 分 组 
中 ， 它 永远 也 不 会 “交还 ”已 经 四 配 的 任何 内 容 。 

尽管 这 个 例子 没有 什么 实际 价值 ， 固 化 分 组 还 是 有 重要 的 用 途 。 尤 其 是 ， 它 能 够 提高 匹配 的 效率 O 
171) ， 而 且 能 够 对 什么 能 匹配 ， 什 么 不 能 匹配 进行 准确 地 控制 〈 嗓 269) 。 

多 选 结构 : ...|...|... 

多 选 结构 能 够 在 同一 位 置 测 试 多 个 子 表达 式 。 每 个 子 表 达 式 称 为 一 个 多 选 分 文 〈alternative) . F 
| 有 很 多 称呼 ， 不 过 “或 Cor) ”和 “ 竖 线 Car) ”最 为 常见 。 有 的 流派 使 用 | 。 

多 选 结构 的 优先 级 很 低 ， 所 以 “this andlor that; 的 匹配 等 价 于 (this and) | (or that) | ， 而 不 是 this 

Candlor) that, ， 虽 然 andlor 看 上 去 是 一 个 单位 。 











[ 

大 多 数 流派 都 容许 出 现 空 的 多 选 分支 ， 例 如 “as taat A 1。 空 表达 式 在 任何 情况 下 都 能 匹配 ， 
所 以 这 个 例子 等 于 ' (thislthat) ? | ( 注 16) 。 

POSIX 标 准 茶 止 出 现 空 多 选 分 文 ，lex 和 大 多 数 厂 本 的 awk 也 是 如 此 。 我 认为 ， 考 虑 到 空 多 选 分 文 的 徐 
便 和 清晰 ， 保 留 它 不 无 益处 。Larry Wall 告诉 我 : “我 认为 ， 保 留 它 就 好 像 在 数学 中 保留 0 一 样 有 意义 ”。 

条 件 判 断 : 〈? if thenlelse) 

这 个 结构 容许 用 户 在 正则 表达 式 中 使 用 if/then/else 判断 。if 部 分 是 特殊 的 条 件 表达 式 Ca special kind of 
conditional expression) ， 下 文 马 上 会 有 介绍 。then 和 else 部 分 是 普通 的 子 表达 式 。 如 果 计 部 分 测试 为 真 ， 则 
尝试 then 的 表达 式 ， 否 则 尝试 else 部 分 〈else 部 分 也 可 以 不 出 现 ， 果 真如 此 的 话 ， 可 以 省 略 中 ) 。 

f 的 种 类 因 流 派 的 不 同 而 不 同 ， 但 是 大 多 数 实现 方式 都 容许 在 其 中 引用 捕获 的 子 表达 式 和 环视 结构 。 

测试 对 捕获 型 括号 的 特殊 引用 。 如 果 if 部 分 是 一 个 括号 中 的 编号 ， 而 对 应 编号 的 捕获 型 括号 参与 了 罗 
配 ， 其 全 为 “true"”。 下 面 的 例子 匹配 生 IMG> tag， 无 论 是 是 单独 出 现 的 ， 或 者 是 在 二 A>.…</A> 中 出 现 
的 。 代 码 采 用 带 注 释 的 宽松 排列 格式 ， 条 件 判断 结构 〈 这 里 的 没有 else 部 分 ) 以 粗 体 标注 。 

( <A\s+[*>]+> \s* )? # 匹配 开头 的 <A> tagd， 如 果 存 在 的 话 
<IMG\s+[*>]+> # 匹配 <IMG> tag 
(? (1) \s*</A>) # 匹配 结尾 的 </A>， 如 果 之 前 匹配 过 <A> 


|? d)... | 测试 中 的 (1) 会 测试 第 一 组 捕获 型 括号 是 含 参与 了 匹配 。“ 参 与 匹配 ?不 等 于 “实际 
匹配 了 文本 ”， 来 看 个 简单 的 例子 : 

下 面 两 种 办 法 都 可 以 匹配 可 能 包含 在 "一 .>* 中 的 单词 [ (< ) ? Ww+ (? (1) >) | 可以， 
| (<? ) w (? (1) >) | 则 不 行 。 它 们 之 间 唯 一 的 区 列 在 于 第 一 个 问号 出 现 的 位 置 。 在 第 一 种 (下 
确 的 ) 办 法 中 ， 问 号 作用 于 整个 捕获 型 插 写 ， 所 以 插 写 《以 及 包含 的 内 容 〉 不 是 必须 匹配 的 。 在 第 二 个 例 
子 中 ， 捕 获 型 括 写 不 是 可 选 的 只 有 其 中 的 “< | 才 是 ， 所 以 无 论 '=<’ 是 否 匹 配 了 文本 ， 它 都 “参与 匹 
配 ?。 也 就 是 说 ，| (? (1) ...) | 中 的 并 部 分 总 是 “true”。 

如 果 能 够 使 用 命名 捕获 CS 138) ， 残 可 以 在 括号 中 使 用 命名 ， 而 不 是 编号 。 

用 环视 做 测试 。 完 整 的 环视 结构 ， 例 如 T (? = MC <=.) ，， 可 以 用 于 诗 测 试 。 如 果 环 视 
能 够 匹配 ， 它 返回 “true”， 执 行 hen 部 分 。 侣 则 会 执行 ealse 部 分 。 来 看 个 专门 设计 的 例子 
| (2 (2<=NUM:) \d+ | \w+) | 

, a : 























它 会 在 INUM: | 之 后 的 位 置 尝试 匹配 fd+ |) ， 但 是 在 其 他 位 置 尝试 使 用 
\w+ | 。 环 视 条 件 判断 以 下 画 线 标注 。 

条 件 判断 的 其 他 测试 。Perl 提供 了 一 种 复杂 的 条 件 判断 结构 ， 容 许 在 测试 中 使 用 任意 _ Perl 代码。 返回 
值 作 为 测试 的 值 ， 根 据 它 来 判断 hen 或 者 else 部 分 是 否 应 该 尝试 。 详 细 信息 请 参考 第 7 章 的 第 327 页 。 

匹配 优先 量词 :  、+、? {num, num} 

量词 ( 星 号 、 加 号 、 问 号 ， 以 及 区 间 元 字符 ， 它 们 能 够 限制 作用 对 象 的 匹配 次 数 ) 已 经 有 过 详细 介 
绍 。 不 过 ， 需 要 注意 的 是 ， 在 某 些 工具 中 使 用 Tt ee AAS 2 WR axdelegarry it L 


有 具 中 ， 量 词 不 能 限定 反 同 引用 ， 也 不 能 限定 括号 。 

区 间 : {min，max} 或 者 \{min，max\} 

区 间 可 以 被 认为 是 “计数 量词 (counting quantifier) >”， 因 为 用 户 可 以 通过 区 间 指 定 匹 配 成 功 所 必须 的 
下 限 和 上 限 。 如 果 只 设置 了 一 个 数值 〈 例 如 [a-z]{3}, 或 者 [a-zN\M{3\} | , Kime eee) ， 匹 配 的 次 数 束 等 
于 这 个 值 。 它 等 同 于 “[a-z][a-z][a-z]| (尽管 两 者 的 效率 可 能 有 所 不 同室 251)。 

需要 注意 的 是 ， 不 要 认为 X{0， 0} | 的 意思 是 “X 不 能 出 现 ”。 'X{0, 0} | 没有 意义 ， 因 为 它 的 意思 
是 “不 需要 匹配 X) ， 也 就 是 说 实际 上 根本 不 需要 进行 任何 尝试 ?>。 它 基本 等 于 X{0， 0} | 不 存在 一 一 如 末 
存在 X， 它 也 可 以 补正 则 表达 式 之 后 出 现 的 某 些 元 素 匹 配 ， 所 以 这 种 做 法 是 行 不 通 的 〈 注 17) 。 要 实现 “不 
RITTE”, WEH B EEA 

忽略 优先 量词 : * 2. +? 、? ? . {num, num}? 

有 的 工具 提供 了 不 那么 美观 的 量词 x ? 、+? 、? ? 和 {min，max}? 。 这 些 是 忽略 优先 的 量词 。 量 
词 在 正常 情况 下 都 是 “匹配 优先 〈greedy) ”的 ， 匹 配 尽 可 能 多 的 内 容 。 相 反 ， 这 些 忽略 优先 的 量词 会 匹配 
尽 可 能 少 的 内 容 ， 只 需要 满足 下 限 ， 匹 配 束 能 成 功 。 其 中 的 差异 有 深远 的 影响 ， 详 细 的 介绍 在 下 一 章 〈 嗓 
159) 。 

占有 优先 量词 : x+ ++, ? +, {num, num}+ 

这 些 量词 目前 只 有 java.util.regex 和 PCRE 〈 以 及 PHP) 提供 ， 但 是 很 可 能 会 流行 开 来 ， 占 有 优先 量词 类 
似 普 通 的 匹配 优先 量词 ， 不 过 他 们 一 旦 匹配 某 些 内 容 ， 束 不 会 “交还 ”。 它 们 类 似 固 化 分 组 ， 如 果 理 解 了 基 
本 的 匹配 过 程 ， 束 很 容易 理解 占有 优先 量词 。 

从 菏 种 意义 上 来 说 ， 占 有 优先 的 量词 只 是 些 表 面 工夫 ， 因 为 它们 可 以 用 固化 分 组 来 模拟 。 | .++| 与 
| (3 >+) | 的 结果 完全 一 样 ， 只 是 足够 乔 能 的 实现 方式 能 对 占有 优先 量词 进行 更 多 的 优化 。 
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局 级 话题 引导 


Guide to the Advanced Chapters 

我 们 已 经 熟悉 了 元 字符 、 流 派 、 语 法 包装 (syntactic packaging) 之 类 的 概念 ， 现 在 应 该 详细 介绍 本 书 
开头 提 到 的 第 三 点 了 ， 也 束 是 工具 软件 的 正则 引擎 如 何 把 一 个 正则 表达 式 应 用 到 文本 当中 。 在 第 4 半 “ 正 则 
表达 陈 的 匹配 原理 ?中 ， 我 们 会 看 到 匹配 引擎 的 实现 方式 如 何 影 啊 匹配 的 完成 、 匹 配 的 内 容 ， 以 及 匹配 的 
时 间 。 我 们 会 详细 考察 这 一 切 。 和 学习 完 这 些 知 识 之 后 ， 你 在 调 校 复 杂 的 正则 表达 陈 时 会 更 有 信心 。 第 5 
草 “ 实 用 正则 表达 陈 技 巧 ” 会 用 更 复杂 的 例子 巩固 这 些 知 识 。 

接 下 来 是 第 6 和 草 “ 打 造 高 效率 的 正则 表达 式 ”。 了 解 了 引擎 的 基本 工作 原理 之 后 ， 你 会 学 习 到 如 何 充 分 
利用 这 些 知识 。 第 6 章 考 家 了 正则 表达 式 的 陷阱 一 一 它们 通 篆 会 导致 意外 的 结果 ， 然 后 教会 读者 真正 运用 
书本 上 的 知识 。 

第 4、5、6 三 章 是 本 书 的 核心 。 头 三 章 只 是 为 它们 做 铺垫 ， 而 且 最 后 针对 工具 软件 的 章节 以 它们 为 基 
础 。 核 心 章 市 不 容易 阅读 ， 但 是 我 尽力 避免 使 用 数学 、 代 数 和 其 他 我 们 不 熟悉 的 概念 。 但 是 ， 就 像 任何 局 
深 的 学 问 一 样 ， 潜 心 研 究 细 节 需 要 花费 相当 的 工夫 。 
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第 4 章 AIA TH VO AC Sa E 


The Mechanics of Expression Processing 

前 一 章 在 开 尖 类 比 了 正则 表达 式 与 汽车 ， 余 下 的 部 分 介绍 了 正则 表达 式 的 功能 、 特 点 以 及 其 他 相关 信 
轧 。 本 章 仍 会 使 用 这 个 闫 比 来 说 明 重 要 的 正则 引擎 及 其 工作 诛 理 。 

为 什么 需要 了 解 这 些 原理 呢 ? 读者 将 会 了 解 到 ， 正 则 引擎 分 为 很 多 种 ， 最 常用 的 引擎 类 型 一 Perl、 
Tcl、Python、.Net、Ruby、PHP， 我 见 过 的 所 有 的 Java 正 则 包 ， 以 及 其 他 语言 使 用 的 工作 原理 ， 基 于 此 原 
理 ， 构 建 正 则 表达 式 的 方式 决定 了 某 个 正则 表达 式 能 个 匹配 一 个 特定 字符 串 ， 在 何 处 匹配 ， 以 及 匹配 成 功 
或 报告 失败 的 速度 。 如 果 你 认为 这 些 问题 很 午 要 ， 请 阅读 本 章 。 
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及 动 引擎 
Start Your Engines! 
现在 我 们 来 看 看 ， 引 擎 的 类 比 能 为 我 们 提供 多 大 帮助 。 引 擎 的 价值 在 于 ， 有 了 它 ， 你 不 需要 人 花 多 少 气 
力 惑 能 从 一 个 地 方 移动 到 态 一 个 地 方 。 罗 驶 员 只 需要 放松 或 者 听 听 音乐 ， 友 动机 会 完成 余下 的 事情 。 生 六 
主要 任务 就 是 张 动车 轮 ， 而 驾驶 员 没 必要 关心 它 是 如 何 工 作 的 。 古 这 样 吗 ? 


PYRG] SE 





Two Kinds of Engines 

设想 一 下 要 驶 电动 汽车 的 情形 ? FSR ECA RAS, (LENA BYU RAL ER AZ A Ee 
及 ， 因 为 电动 汽车 还 不 够 成 熟 。 如 果 你 有 辆 电动 汽车 ， 请 记 住 别 给 它 加 油 。 如 果 你 的 汽车 采用 汽油 改动 
机 ， 请 务必 远离 烟火 。 电 动机 几乎 总 是 “能 够 运行 ”， 汽 油 机 则 需要 多 加 保养 。 更 换 火 花 终 、 衬 气 过 滤 圳 ， 
或 者 换 用 不 同 品牌 的 汽油 ， 有 可 能 大 大 提升 发 动机 的 效率 。 当 然 ， 也 可 能 降低 汽油 机 的 性 能 ， 或 者 导致 及 
动机 去 工 。 不 同 引 苟 的 工作 原理 也 有 不 同 ， 但 目的 都 是 驱动 车 轮 。 不 过 ， 如 果 你 想 开 车 去 菜 个 地 方 ， 还 得 
把 好 方 同 盘 ， 当 然 ， 这 是 题 外 话 。 


新 的 标准 


New Standards 

让 我 们 看 看 添加 一 条 新 规范 : DAA Te LIN A Be EOE GE 1) 。 一 些 友 动机 达到 了 加 州 的 严格 
排放 标准 ， 一 些 则 没有 。 这 两 类 发 动机 并 没有 本 质 的 不 同 ， 只 是 按 标 准 划 分 为 两 类 。 这 些 标准 规 定 了 发 动 
机 尾气 排放 的 成 分 ， 而 并 没有 规定 发 动机 应 该 怎样 做 才能 达标 。 所 以 ， 现 在 我 们 可 以 把 之 前 的 两 分 法 变 为 
四 分 法 : 符合 标准 的 电动 机 、 不 符合 标准 的 电动 机 、 人 符合 标准 的 汽油 机 和 不 符合 标准 的 汽油 机 。 

回 到 原来 的 话题 ， 我 敢 打赌 ， 电 动机 不 需要 做 多 少 改动 就 可 以 达标 一 一 标准 只 是 “规定 ”尾气 的 成 分 ， 
而 电动 机 几乎 没有 尾气 。 相 反 ， 汽 油 机 要 达标 可 能 束 需 要 大 的 修改 和 更 新 。 使 用 汽油 及 动机 的 要 驶 员 尤 其 
需要 注意 汽油 的 型 号 一 一 如 果 加 错 了 油 ， 他 们 就 态 上 大 及 烦 了 。 

标准 的 作用 

更 严格 的 排放 标准 是 个 好 玩意 儿 ， 但 芍 驶 员 也 需要 考虑 更 多 ， 同 时 更 加 小 心 (至 少 对 汽油 车 来 说 如 
此 ) 。 不 过 坦 日 说 ， 新 标准 对 大 多 数 人 没有 什么 影响 ， 因 为 其 他 州 不 会 施行 加 州 的 标准 。 

所 以 你 知道 ， 四 种 类 型 的 友 动 机 其 实 可 以 分 为 三 类 : 两 类 是 汽油 机 ， 一 类 是 电动 机 。 虽 然 它 们 都 是 驱 
动车 轮 的 ， 但 你 明白 了 其 中 的 差异 。 你 不 知道 的 是 ， 这 堆 复 杂 的 玩意 与 正则 表达 式 有 什么 关系 ! 其 实 这 里 
面 的 关系 远 比 你 能 想象 的 要 复杂 。 








正则 引擎 的 分 区 


Regex Engine Types 

正则 引擎 主要 可 以 分 为 基本 不 同 的 两 大 类 : 一 种 是 DFA CAF ZAIN LD» 7 HE 
NFA 〈 相 当 于 前 面 的 汽油 机 ) 。 我 们 很 快 就 会 知道 DFA 和 NEFA 的 具体 含义 ， 但 是 现在 读者 只 需要 知道 这 两 
SAF, WABA Ted”, “汽油 机 ?和 “电动 机 ?一 样 。 

DFA 和 NFA 都 有 很 长 的 历史 ， 不 过 ， 正 如 汽油 机 一 样 ，NFA 的 历史 更 长 一 些 。 使 用 NFA 的 工具 包 
括 .NET、PHP、Ruby、Perl、Python、GNU Emacs、ed、sec、vVi、grep 的 多 数 版 本 ， 其 至 还 有 某 些 版 本 的 
egrep 和 awk。 而 采用 DFA 的 工具 主要 有 egrep、awk、lex 和 flex。 也 有 些 系统 采用 了 混合 引擎 ， 它 们 会 根据 
任务 的 不 同 选择 合适 的 引擎 〈 甚 至 对 同一 表达 式 中 的 不 同 部 分 采用 不 同 的 引擎 ， 以 求 得 功能 与 速度 之 间 的 
最 佳 平 衡 ) 。 表 4-1 列 出 了 少量 第 用 的 工具 及 其 大 多 数 厂 本 使 用 的 引擎 。 如 果 你 最 喜欢 的 工具 没有 名 列 其 
中 ， 可 以 参考 下 一 页 的 “测试 引擎 的 类 型 ”来 找到 答案 。 

表 4-1: 部 分 程序 及 其 所 使 用 的 正则 引擎 
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引擎 类 型 |e 序 
DFA | (大 多 数 版 本 ) egrep (K$ BIKA), flex, lex, MySQL, Procmail — 
GNU Emacs, Java, grep (大 多 数 版 本 ) , less, more, NET 语言 、PCRE library, 

| Perl, PHP (#F4A7 =H sE 0) #), Python, Ruby, sed (大 多 数 版 本 ) vi 
POSIX NFA | mawk, Mortice Kern Systems’ utilities, GNU Emacs (明确 指定 时 使 用 ) 
DFA/NFA 混合 | GNU awk, GNU grep/egrep, Tcl 


第 3 曹 已 经 讲 过 ，NFA 和 DEFA 都 发 展 了 二 十 多 年 ， 产 生 了 许多 不 必要 的 变 体 ， 结 果 ， 现 在 的 情况 比较 复 
杂 。POSIX 标 准 的 出 台 ， 就 是 为 了 规范 这 种 现象 ，POSIX 标 准 不 但 清楚 地 规定 了 前 一 章 中 提 到 的 引擎 应 该 
支持 的 元 字符 和 特性 ， 还 明确 规定 了 使 用 者 期 望 由 表达 式 获 得 的 准确 结果 。 除 开 表 面 细 节 不 谈 ，DFA (也 
束 是 电动 机 〉 显然 已 经 从 合 狐 的 标准 ， 但 是 NFA 风 格 的 结果 却 与 此 不 一 ， 所 以 NFA 需 要 修改 才能 从 合 标 
准 。 这 样 一 来 ， 正 则 引 敬 可 以 粗略 地 分 为 3 类 : 

eDFA (符合 或 不 符合 POSIX 标 准 的 都 属 此 类 ) 。 

e 传 统 型 NFA。 

ePOSIX NEFA. 

这 里 提 到 的 POSIX 是 匹配 意义 上 的 ， 也 就 是 说 ，POSIX 标 准 规定 的 某 个 正则 表达 式 的 应 有 行为 《本章 
稍 后 部 分 将 讨论 ) ; 而 不 是 指 POSIX 标 准 引 入 的 匹配 特性 。 许 多 程序 支持 这 些 特 性 ， 但 结果 与 POSIX 规 范 
不 完全 一 致 。 

老式 〈 功 能 极 少 的 ) 程序 ， 比 如 egrep、awk、lex 之 类 ， 一 般 都 是 使 用 DFA 引 擎 〈 电 动机 ) ， 所 以 ， 新 
的 标准 只 是 肯定 了 既 有 的 情况 ， 而 没有 大 的 改变 。 但 是 也 存在 一 些 汽油 机 版 本 的 此 类 程序 ， 如 果 它 们 需要 
达到 POSIX 标 准 ， 残 需要 做 些 修 改 。 通 过 了 加 州 排放 标准 测试 (POSIX NFA) 的 汽油 机 能 够 产生 符合 标准 
的 结果 ， 但 是 这 些 必 要 的 修改 会 增加 保养 的 难度 。 以 前 ， 钳 位 的 火花 考 也 能 应 付 着 使 用 ， 但 现在 根本 束 点 
不 着 火 。 以 前 还 能 “ 读 合 ”的 汽油 ， 现 在 会 弄 得 发 动机 侠 侠 乱 啊 。 不 过 ， 一 旦 掌握 其 中 的 门道 ， 发 动机 就 能 
平稳 安静 地 运转 了 。 


传统 型 NFA 





儿 句 题 外 话 


From the Department of Redundancy Department 

现在 ， 我 请 读者 回 过 头 去 ， 重 新 思考 天 于 引擎 的 故事 。 其 中 的 每 句 话 都 涉及 东 些 与 正则 表达 式 相 天 的 
事实 。 读 第 二 遍 会 引起 许多 思考 。 尤 其 是， 为 什么 说 电动 机 (DFA 引 擎 ) 只 是 “能 够 运行 "。 什 么 影响 了 汽 
油 机 CNFA) ? 便 用 NFA 引 擎 时 ， 应 该 如 何 调整 才能 获得 期 翌 的 结 朱 ? 通过 排放) 测试 的 POSIX DFAS 
什么 特别 之 处 ? 现实 中 “ 烛 火 的 引擎 ?又 是 什么 ? 


WU a | BEY SS A 


Testing the Engine Type 

TAA AAD S| SESS, RE SS 5] BRE SC REED EER ae. A, GH Te. R 
NTR EL eA TK, BEAU TH Fee A ES A | SSS CE, GOR RAN BE oT HE S| SA RA, 
这 种 分 类 就 没有 意义 ) ME, RIP ANE ae A PA, RR ee pe FE a eA sk, 
即使 谈 者 最 喜欢 使 用 的 软件 没有 出 现在 表 4-1 之 内 ， 也 可 以 判断 出 引擎 的 类 型 ， 继 续 阅 读本 章 的 其 他 内 容 。 

是 否 传统 型 NFA 

传统 型 NFA 是 使 用 最 广泛 的 引擎 ， 而 且 它 很 容易 识别 。 首 先 ， 看 看 忽略 优先 量词 CF 141) Ae Bs 
持 ? 如 果 是 ， 基 本 就 能 确定 这 是 传统 型 ”NFA。 我 们 将 要 看 到 ， 忽 略 优 先 量词 是 DFA 不 支持 的 ， 在 POSIX 
NFA 中 也 没有 意义 。 为 了 确认 这 一 点 ， 只 需要 简单 地 用 正则 表达 式 'nfalnfanot| 来 匹配 字符 串 ‘nfa-not*， 如 
果 只 有 ‘nfa’ 匹 配 了 ， 这 就 是 传统 型 NFA。 如 果 整 个 ‘nfa not 都 能 匹配 ， 则 此 引擎 要 么 是 POSIX NFA, #4 
是 DFA。 

DFA‘ POSIX NFA 


某 些 情况 下 ，DFA 与 POSIX NFA (MK HATER ELI UDRA | WAE. coamutring | 











parentheses) 和 回调 〈backreferences) ， 这 一 点 有 助 于 判断 ， 不 过 ， 也 存在 同时 使 用 两 种 引擎 的 混合 系 
统 ， 在 这 种 系统 中 ， 如 果 没 有 使 用 捕获 型 括号 ， 束 会 使 用 DFA。 
下 面 这 个 简单 的 测试 能 说 明 很 多 问题 ， 用 'X(.+) +X) 来 匹配 形 


echo=XX=========================================|egrep'X(.+)+X' 

如 果 执 行 需要 花 很 长 时 间 ， 束 古 NFA【 如 果 上 一 项 测试 显示 这 不 是 传统 型 NFA， 那 么 它 肯 定 是 POSIX 
NFA) 。 如 来 时 间 很 短 ， 束 是 DFA， 或 者 是 文 持 菏 些 局 级 优化 的 NFA。 如 果 显 示 堆 栈 超 洲 (stack 
overflow) ， 或 者 超时 退出 ， 那 么 它 是 NFA 引 擎 。 
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匹配 的 基础 


Match Basics 
在 了 解 不 同 引 苟 的 又 异 之 前 ， 我 们 先 看 看 它们 的 相似 之 处 。 汽 车 的 各 种 动力 系统 在 某 些 方面 是 一 样 的 
(或 者 说 ， 从 实用 的 角度 考虑 ， 它 们 是 一 样 的 ) ， 所 以 ， 下 面 的 范例 也 能 够 适用 于 所 有 的 引 苟 。 


天 于 范例 


About the Examples 

本 章 关 注 的 是 一 般 的 提供 所 有 功能 的 正则 引擎 ， 所 以 ， 某 些 程序 并 不 能 完全 文 持 它们 。 在 本 书 所 说 的 
汽车 里 ， 机 油 油 尺 (dipstick〉 可 能 摊 在 机 油 滤 清 器 Coil filter) 的 左边 ， 而 在 读者 那里 ， 它 却 装 在 分 电 盘 疼 
(distributor cap) 的 后 面 。 不 过 ， 旋 者 要 做 的 只 是 理解 这 些 概 念 ， 能 够 使 用 和 维护 上 自己 最 喜欢 《以 及 他 们 
最 感 兴趣 ) 的 正则 表达 式 包 。 

在 大 部 分 例子 中 ， 我 仍然 使 用 Perl 表 示 法 ， 虽 然 我 偶尔 会 用 一 些 其 他 的 表示 法 来 提醒 读者 ， 表 示 法 并 
不 重要 ， 我 们 讨论 的 问题 与 程序 和 表示 法 不 属于 一 个 层次 。 为 广 省 篇 幅 ， 如 果 读 者 过 到 不 熟悉 的 构建 方 
式 ， 请 但 阅 第 3 间 C114) 。 

本 划 评 细 曾 释 了 区 配 执行 的 实际 流程 。 理 想 的 情况 是 ， 所 有 的 知识 都 能 归纳 为 几 条 容易 记忆 的 人 简单 规 
则 ， 使 用 者 不 需要 了 解 这 些 规则 包含 的 原理 。 很 不 对 ， 事 实 并 非 如 此 。 整 个 第 4 草 只 能 列 出 两 条 普 适 的 原 
ij: 

Lise Pea AL in CRETA) WA 

2. 标 准 的 匹配 量词 Claw). T+). 1? All om, n} ) 是 匹配 优先 的 。 

在 本 半 中 ， 我 们 将 考察 这 些 规则 ， 它 们 的 结果 ， 以 及 其 他 许多 内 容 。 首 先 我 们 详细 讨论 第 一 条 规则 。 


规则 1: 优先 选择 最 元 病 的 匹配 续 


Rule 1:The Match That Begins Earliest Wins 

根据 这 条 规则 ， 起 始 位 置 最 靠 左 的 匹配 结果 总 是 优先 于 其 他 可 能 的 匹配 结束 。 这 条 规则 并 没有 规定 优 
先 的 匹配 结果 的 长 上 度 〈( 稍 后 将 会 讨论 ) ， 而 只 是 规定 ， 在 所 有 可 能 的 逻 配 结果 中 ， 优 先 选择 开始 位 置 最 左 
疝 有 的。 实际 上 ， 因 为 可 能 有 多 个 匹配 结果 的 起 始 位 置 都 在 最 左 病 ， 也 许 我 们 应 该 把 这 条 规则 中 的 “ 菏 个 匹配 
结果 (a match) ” 改 为 “该 匹配 结果 (the match) ”， 不 过 这 上 听 起 来 有 些 别 扭 。 

这 条 规则 的 由 来 是 ， 匹配 先 从 需要 奉 找 的 字符 绅 的 起 始 位 置 答 试 匹配 。 在 这 里 ,“ 答 试 匹配 
(attempt) ”的 意思 是 ， 在 当前 位 置 测试 整 个 正则 表达 式 《 可 能 很 复杂 ) 能 匹配 的 每 样 文本 。 如 条 在 当前 位 
置 测 试 了 所 有 的 可 能 之 后 不 能 找到 匹配 结束 ， 束 需要 从 字符 串 的 第 二 个 字符 之 前 的 位 置 开 始 重新 答 试 。 在 
找到 匹配 结 末 以 前 必须 在 所 有 的 位 置 重复 此 过 程 。 只 有 在 答 试 过 所 有 的 起 始 位 置 〈 直 到 字符 串 的 最 后 一 个 
字符 ) 者 不 能 找到 匹配 结束 的 情况 下 ， 才 会 报告 “匹配 失败 ”。 

所 以 ， 如 果 要 用 'ORA | 来 匹配 FLORAL， 从 字符 串 左 边 开 始 第 一 轮 尝 试 会 失败 (因为 1ORA | 不 能 
配 FLO) ， 第 二 轮 尝 试 也 会 失败 (“ORA | 同样 不 能 匹配 LOR) ， 从 第 三 个 字符 开始 的 党 试 能 够 成 功 ， 所 
以 引擎 会 停 下 来 ， 报 告 匹配 结果 ESS, 

如 果 不 了 解 这 条 规则 ， 有 时 候 就 不 能 理解 匹配 的 结果 。 例 如 ， 用 “cat| 来 匹配 : 


The dragging belly indicates that your cat is too fat. 


结果 是 ， 而 不 是 后 来 出 现 的 cat。 单 词 cat 是 能 够 密 史 配 的 ， 但 indicates 中 的 cat 出 现 的 更 
早 ， 所 以 得 到 匹配 的 是 它 。 对 于 egrep 之 类 的 程序 来 说， 这 种 午 别 是 无 关 案 要 的 ， 因 为 它 只 关心 “是 否 ” 能 够 
LAC, MAE FE VOR. (AMOUR EET AINA, MERMER, OPE S 

这 里 有 一 个 小 测验 〈 应 该 不 困难 ) : 如 果 用 fatlcatlbellylyour| 来 匹配 字符 串 “The dragging belly 
indicates that your cat is too fat.，， 结 果 是 什么 呢 ? 四 请 看 下 一 页 。 

“传动 装置 (transmission) ”和 驱动 过 程 (bump-along ) 

或 许 汽 车 变速 箱 《〈 详 注 1) EN BI BP ER PRP, [7 A ATA WAAR A Doce ot Th 47) | 









































indicates 
a . 





系统 。 引 擎 是 真正 产生 动力 的 地 方 〈“ 它 驱动 曲轴 ) ， 而 变速 箱 把 动力 传送 到 征 轮 。 

传动 装置 的 主要 功能 : 驱动 

如 果 引 和 获 不 能 在 字符 串 开始 的 位 置 找 到 匹配 的 结 霖 ， 传 动 疙 置 开会 推动 引擎 ， 从 字符 串 的 下 一 个 位 置 
开始 笑 试 ， 然 后 是 下 一 个 ， 再 下 一 个 ， 如 此 继续 。 不 过 ， 如 末 某 个 正则 表达 式 是 以 “字符 串 起 始 位 置 销 点 
(start-of-string anchor) "JFK, APRA MAA, APB SNS, ANWR Ree ILA, BRE 
和 是 从 字符 串 的 头 部 开始 的 。 在 第 6 章 中 ， 我 们 会 讲解 这 一 点 ， 以 及 更 多 的 内 部 优化 措施 。 


引擎 的 构造 





Engine Pieces and Parts 

所 有 的 引擎 都 是 由 不 同 的 零 部 件 组 合 而 成 的 。 如 果 对 这 些 零 件 缺 乏 了 解 ， 也 束 不 可 能 真正 理解 引擎 的 
工作 原理 。 正 则 引擎 中 的 这 些 去 件 分 为 几 关 一 一 文字 字符 (iteral characters) 、 量 词 (qualifiers) ~ FFA 
(character classes) 、 括 号 ， 等 等 ， 我 们 在 第 3 章 介 绍 过 〈 嗓 114) 。 这 些 零 件 的 组 合 方式 〈 以 及 正则 引擎 
对 它们 的 处 理 方式 ) 诀 定 了 引擎 的 特性 ， 所 以 ， 这 些 零 件 的 组 合 方式 ， 以 及 它们 之 间 的 配合 ， 是 我 们 主要 
关注 的 东西 。 首 先 ， 让 我 们 来 看 看 这 些 零 件 : 

文字 文本 (Literal Text) 例如 a、\ 大 、! 、 术 ... 

对 于 非 元 字符 的 文字 字符 ， 演 试 抱 配 时 需要 考虑 束 是 “这 个 字符 与 当前 答 试 的 字符 相同 吗 ? ”。 如 果 一 
个 正则 表达 式 只 包含 纯 文 本 字符 ， 例 如 ‘usa, ， 那 么 正则 引擎 会 将 其 视 为 : 一 个 ul ， 接 着 一 个 s| ， 接 
着 一 个 al 。 进 行 不 区 分 大 小 写 的 匹配 时 的 情况 要 复杂 一 点 ， 因 为 bj 能 够 匹配 B, mW B) 也 能 匹配 b, 
不 过 这 仍然 不 难 理解 〈Unicode 的 情况 稍微 复杂 一 些 咖 110) 。 

字符 组 、 点 号 、Unicode 属 性 及 其 他 

通 间 情况 下 ， 字 人 符 组 、 点 号 、Unicode 属 性 及 其 他 的 匹配 是 比较 简单 的 : 无 论 字 符 组 的 长 度 是 多 少 ， 它 
都 只 能 匹配 一 个 字符 〈 注 2) 。 

点 号 可 以 很 方便 地 表示 复杂 的 字符 组 ， 它 几乎 能 匹配 所 有 字符 ， 所 以 它 的 作用 也 很 简单 ， 其 他 的 简便 
方式 还 包括 Ww), NWA hdj- 

捕获 型 括号 

用 于 捕获 文本 的 插 写 《而 不 是 用 于 分 组 的 插 写 ) 不 会 影响 匹配 的 过 程 。 





测验 答案 


wo 148 页 测验 的 答案 

请 记 住 , 正则 表达 式 的 每 一 次 尝试 都 要 进行 到 底 ,， 所 以 fatlcatlbelly|your! HAL 
Bo “The dragging belly indicates your cat is too fat’ 的 上 竺 末 不 六 fat, ÆA 
管 fatj 在 所 有 可 能 选项 中 列 在 最 前 头 。 

GR, 正则 表达 式 应 该 也 能 够 匹配 fat 和 其 他 可 能 ， 但 它们 都 不 是 最 先 出 现 的 匹配 结 
果 ( 除 现在 最 左边 的 结果 )， 所 以 不 会 被 选择 。 在 进行 下 一 轮 尝试 之 前 , 正则 表达 式 的 
所 有 可 能 都 会 尝试 , 也 就 是 说 , 在 移动 之 前 ，fatj、catij、bellvj 和 vourj 都 必须 尝试。 





销 所 (e.g.， A| Az | (? <=\d) E 

锚 点 可 以 分 为 两 大 类 : EA C $ G \b, 0.129) MEISTER A AIE Ae E 
133) HEHKUA, METER ete HFI PN Ree ET O Z...) ， 或 者 是 
比较 两 个 相 邻 的 字符 < \by o) 。 相 反 ， 复 末 销 点 (环视 ) 能 包含 任意 复杂 的 子 表 达 式 ， 所 以 它们 也 
可 以 任意 复杂 。 


非 “ 电 动 * 的 括号 、 反 向 引用 和 忽略 优先 量词 g o Linux O www.linuxidc.com [DT 


虽然 本 章 布 望 讲解 的 是 引擎 之 则 的 相似 之 处 ， 但 为 了 方便 读者 理解 本 章 余 下 的 内 容 ， 这 里 必须 指出 一 
HOA MIN. THR Ss COLA AAD I S| STAN) 了 吏 像 汽油 添加 剂 一 样 一 一 它们 只 对 汽油 机 
(NFA) 起 作用 ， 对 电动 机 (DFA) 不 起 作用 。 忽 略 优先 量词 也 是 如 此 。 这 种 情况 是 由 DFA 的 工作 原理 决 
定 的 〈 注 3) 。 这 解释 了 ， 为 什么 DFA 引 擎 不 文 持 这 些 特性 。 旋 者 会 看 到 ，awk、lex 和 egrep 都 不 文 持 反 回 
引用 和 $1 功能 (表示 法 ) 。 

也 许 谈 者 会 注意 到 ，GNU 版 本 的 egrep 确实 文 持 反 同 引用 。 这 是 因为 它 包含 了 两 侣 不同 的 引擎 。 它 背 
先 使 用 DFA 会 找 可 能 的 匹配 结果 ， 再 用 NFA 《〈 文 持 包括 反 同 引用 在 内 的 所 有 特性 ) 来 确认 这 些 结 末 。 接 下 
来 ， 我 们 将 看 到 DFA 不 能 文 持 反 回 引用 及 捕获 括 与 的 原因 ， 以 及 这 种 引 获 能够 存在 的 理由 (DFA 有 很 多 洱 
车 的 优势 ， 例 如 匹配 速度 非常 快 )。 











规则 2: 标准 量词 是 匹配 优先 的 


Rule 2:The Standard Quantifiers Are Greedy 

BSAIE, BAG SAREE ABE fy 2 E. BNE EIERNE 26 56 MZ AES» i BE 
用 星 亏 、 加 号 、 多 选 结构 之 闫 功 能 更 强大 的 元 衬 符 。 要 彻 展 理解 这 些 功能 ， 需 要 学 习 更 多 的 知识 。 

读者 首先 需要 记 住 的 是 ， 标 准 匹 配 量词 (? 、 类 、+， 以 及 {fmin，max}) 都 是 “匹配 优先 
(greedy) ”的 。 如 果 用 这 些 量 词 来 约束 某 个 表达 式 ， 例 如 1 Cexpr) x*| 中 的 ' (expr) | fa?) 中 的 
fa) 和 1[0-9]+| 中 的 '[0-9], ， 在 匹配 成 功 之 前 ， 进 行 尝试 的 次 数 是 存在 上 限 和 下 限 的 。 在 前 面 的 章节 中 
我 们 已 经 提 到 过 这 一 点 一 一 而 规则 2 表明 ， 这 些 妾 试 忌 是 布 望 获得 最 长 的 匹配 (一 些 工 具 提 供 了 其 他 的 匹 
配 量词 ， 但 是 本 节 只 讨论 标准 的 匹配 优先 量词 〉。 

位 而 言 之 ， 标 准 匹 配 量词 的 结果 “可 能 ”并 非 所 有 可 能 中 最 长 的 ， 但 它们 总 古 壬 试 轧 配 尺 可 能 多 的 字 
伯 ， 和 直到 匹配 上 限 为 止 。 如 末 最 终结 末 并 非 访 表达 式 的 所 有 可 能 中 最 长 的 ， 原 因 肯 定 是 罗 配 字符 过 多 导 人 致 
匹配 失败 。 举 个 简单 的 例子 : 用 \b\wts\b) 来 匹配 包含 "的 字符 串 ， 比 如 说 *regexes”， |\w+) 完全 能 够 匹 
配 整个 单词 ， 但 如 果 用 w | 来 匹配 整个 单词 ， 「s， 就 无 法 匹配 了 。 为 了 完成 匹配 ， fw+ | 必须 匹配 


3 一 ，， 把 最 后 的 1s\b| 留 出 来 。 

如 条 表达 式 的 其 他 部 分 能 够 成 功 匹 配 的 唯一 条 件 是 ， 匹 配 优先 的 结构 不 匹配 任何 字符 ， 在 容许 零 匹 配 
(译注 2) 的 情况 下 (例如 使 用 星 号 、 问 号 ， 或 者 {0，max}， 这 是 没有 问题 的 。 不 过 ， 这 种 情况 只 有 在 表 
达 陈 的 后 续 部 分 强迫 下 才能 有 发生。 匹配 优先 量 词 之 所 以 得 名 ， 是 因为 它们 总 是 《或 者 ， 至 少 是 答 试 ) 匹配 
多 于 匹配 成 功 下 限 的 字符 。 

匹配 优先 的 性 质 可 以 非常 有 用 (有 时 候 也 非常 讨厌 ) 。 它 可 以 用 来 解释 [0-9]+| 为 什么 能 匹配 
March:1998 中 的 所 有 数字 。1 匹 配 之 后 ， 实 际 上 已 经 满足 了 成 功 的 下 限 ， 但 此 正则 表达 式 是 匹配 优先 的 ， 所 
以 它 不 会 停 在 此 处 ， 而 会 继续 下 去 ， 继 续 匹 配 "998:， 直 到 这 个 字符 串 的 末尾 “〈 因 为 “[0-9]| 不 能 匹配 字符 
串 最 后 的 空 要 ， 所 以 会 俘 下 来 ) 。 

邮件 主题 

显然 ， 这 种 匹配 方式 并 非 只 能 用 于 匹配 数字 。 举 例 来 说 ， 如 果 我 们 需要 判断 E-mail 的 header 中 的 某 行 字 
符 是 否 标 题 行 (subject line) 。 前 面 C755) 我 们 已 经 说 过 ， 可 以 用 ^Subject: | 来 实现 。 不 过 ， 如 果 使 

[A : sir 
用 SVOJCE LTD, RAAE ARTEA EA REEE R EA PeH 
$1) (译注 3) 。 

在 探讨 x | 匹配 邮件 主题 之 前 ， 请 读者 记 住 ， 一 旦 Asubject，.， 能 够 部 分 匹配 ， 整 个 正则 表达 式 就 
一 定 能 够 全 部 匹配 。 因 为 “ASubject: :| 之 后 没有 字符 会 导致 表达 式 匹配 失败 : “.x | 永远 不 会 失败 ， 
为 “不 匹配 任何 字符 ”也 是 .x | 的 可 能 结果 之 一 。 

那么 ， 为 什么 要 添加 .大 | We? 这 是 因为 我 们 知道 ， 星 号 是 匹配 优先 的 ， 它 会 用 点 号 匹配 尽 可 能 多 的 
字符 ， 所 以 我 们 用 它 来 “ 填 宛 中 1。 事 实 上 ， 括 号 并 没有 影 啊 正则 表达 式 的 匹配 过 程 ， 在 本 例 中 ， 我 们 只 是 
用 它们 来 包括 “ .类 | 匹配 的 字符 。 

.大 | BIDAR APARNA EB Za AS NEAR ACL, PD AS eZee POR, Se VLR RIAU RS 
元 素 (尽管 .x* ARRET, (TASER) Gel eam [ 



































面 的 元 系 ， 到 达 表 达 式 的 末尾 之 后 ， 我 们 就 获得 了 成 功 的 四 配 结 果 。 
过 度 的 匹配 优先 
现在 让 我 们 回 过 头 去 看 “ 尽 可 能 匹配 ”的 匹配 优先 量词 。 如 果 我 们 在 上 面 的 例子 中 增加 一 个 .| ， 把 


[ i 
ee “Subp reset *) ,* eee ar 、 mi 
正则 表达 式 写作 “ JSST“* D, ARARE? SRE, MERE. FRH T, (括号 中 


的 ) 会 霸占 整个 标题 的 文本 ， 而 不 给 第 二 个 .x* | 留 下 任何 字符 。 而 第 二 个 Tx) 的 匹配 失败 并 不 要 紧 ， 
因为 “.x | 不 匹配 任何 字符 也 能 成 功 。 如 果 我 们 给 第 二 个 .六 | 也 加 上 括号 ，$2 将 会 是 空白 。 

这 是 否 说 明 ， 在 正则 表达 式 中 ，'.* | 的 部 分 没有 机 会 匹配 任何 字符 呢 ? 答案 显然 是 否定 的 。 就 像 我 
们 在 Tw+s| 这 个 例子 中 看 到 的 ， 如 果 进 行 全 部 匹配 必须 这 样 做 ， 表 达 式 中 的 某 些 部 分 可 能 “强迫 ?之 前 匹配 
优先 的 部 分 “释放 ”( 或 者 说 “交还 (unmatch) ”) KEFF. 

[^x ([0-9][0-9]〉 | 或 许 是 个 有 用 的 正则 表达 式 ， 它 能 够 下 配 一 行 字符 的 最 后 两 位 数字 ， 如 果 有 的 
话 ， 然 后 将 它们 存储 在 $1 中 。 下 面 是 匹配 的 过 程 : “.* | 首先 匹配 整 行 ， 而 “[0-9] [0-9], 是 必须 匹配 的 ， 
企 党 试 匹配 行 末 的 时 候 会 失败 ， 这 样 它 会 通知 .x | :“ 嗨 ， 你 占 的 太 多 了 ， 交 出 一 些 字符 来 吧 ， 这 样 我 没 
准 能 匹配 。” 匹 配 优先 组 件 首 和 完 会 逻 配 尽 可 能 多 的 字符 ， 但 为 了 整个 表达 式 的 匹配 ， 它 们 通 第 圾 要 “释放 ”一 
些 字符 《抑制 目 己 的 天 性 ) 。 当 然 ， 它 们 并 不 “愿意 ”这 样 做 ， 只 是 不 得 已 而 为 之 。 当 然 ,，“ 交 还 ” 绝 不 能 破 
坏 匹 配 成 立 必 须 的 条 件 ， 比 如 加 号 的 第 一 次 匹配 。 

明白 了 这 一 点 ， 我 们 来 看 "人 .类 〈[0-9][0-9]) | 匹配 *about.24:characters`long' 的 过 程 。 「. 大 | 匹配 整个 
字符 串 以 后 ， 第 一 个 “[0-9]| 的 匹配 要 求 .* | 释放 一 个 字符 ‘g? (最 后 的 字符 ) 。 但 是 这 并 不 能 让 [0-9] | 
匹配 ， 所 以 | | 必须 继续 “交还 ”字符 ， 接 下 来 交还 的 字符 是 m?。 如 此 循环 15 次 ， 直 到 1.* | RAR 
BUA 为 止 。 

不 幸 的 是 ， 即 使 第 一 个 “[0-9] | 能 够 匹配 4'， 第 二 个 “[0-9] | 仍然 不 能 匹配 。 为 了 匹配 整个 正则 表达 
hy Lx | 必须 再 次 释放 一 个 字符 ， 这 次 是 ‘2*"， 由 第 一 个 1[0-9]| 匹配 。 现 在 ，'4' 能 够 由 第 二 个 [0-9]| 匹 


配 ， 所 以 整个 表达 式 匹配 的 是 aout ed char 

先 来 先 服务 

WRH | A. (0-9]+ | 来 匹配 一 行 的 最 后 两 个 数字 ， 期 望 匹 配 的 不 止 是 最 后 两 位 数字 ， 而 是 最 后 的 整个 
数 ， 结 果 会 是 多 长 呢 ?” 如 果 用 它 来 匹配 ‘Copyright 2003.:， 结 果 是 什么 ? 下 答案 在 下 一 页 。 

RAMT 

EPUI eR. AA .类 | 必须 交还 ...” 或 者 “1[0-9]| 迫使 ...” 之 类 的 说 法 或 许 容易 引起 泥 
请 。 我 使 用 这 些 说 法 是 因为 它们 易于 理解 ， 而 且 跟 实际 的 结果 一 致 。 不 过 ， 事 情 的 真相 是 由 基本 的 引擎 类 
型 决定 一 一 是 DFA， 还 是 NFA。 现 在 我 们 就 来 看 这 些 。 

















> SIERE. 
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AIA TUE SAG MA EF 
Regex-Directed Versus Text-Directed 


DFAFINFAS BR SF IE VU AeA SUE DY SA EAR AS Ze RIEX THLE NFA PR N RIA NE F 
(regex-directed) ”引擎 ， 而 对 应 电动 机 的 DFA 称 为 “文本 主导 Ctext-directed) ”引擎 。 


NEFA 引 擎 : 表达 式 主导 


NFA Engine:Regex-Directed 

我 们 来 看 用 “to Cnite|knight|night) | 匹配 文本 “...tonight... 的 一 种 办 法 。 正 则 表达 式 从 't| 开始 ， 每 次 
检 奉 一 部 分 《由 引擎 得 看 表达 去 的 一 部 分 ) ， 同 时 检查 “当前 文本 (current text) ”古谷 罗 配 表 达 式 的 当前 部 
分 。 如 果 是 ， 则 继续 表达 式 的 下 一 部 分 ， 如 此 继续 ， 直 到 表达 式 的 所 有 部 分 都 能 匹配 ， 即 整个 表达 式 能 够 
匹配 成 功 。 





测验 答案 


o 153 页 测验 的 答案 

Rl '*.*([0-9]+)) 匹配 “copyright 2003.” ， 持 号 会 捕获 到 什么 ? 

这 个 表达 式 的 本 意 是 捕获 整个 数字 2003， 但 结果 并 非 如 此 。 之 前 已 经 说 过 ， 为 了 满足 
(0-9) +) #9 EAL, L 必须 交还 一 些 字符 。 在 这 个 例子 中 ， 释 放 的 字符 是 最 后 的 “3 
和 点 号 ,之 后 ‘3° 能够 由 [0-9]) 匹配 。[0-9])1 由 "上 量词 修饰 ， 所 以 现在 还 只 做 到 
了 最 小 的 匹配 可 能 ， 现 在 它 遇 到 了 “. ， 找 不 到 其 他 可 以 匹配 的 字符 。 

与 之 前 不 同 , 此 时 没有 “必须 ”匹配 的 元 素 , 所 以 .xj 不 会 被 迫 交 出 0。 否则，[0-9]+ 
应 当心 下 感激 ， 接 受 匹 配 优 先 元 订 的 馈赠 ， 但 请 记 住 “ 先 来 先 服 务 ” 原则。 匹配 优先 
的 结构 只 会 在 被 连 的 情况 下 交还 字符 。 所 以 ， 最 终 $1 的 值 是 3 。 

如 果 读 者 觉得 难以 理解 , 不 妨 这 样 想 ， [0-9] 419" (0-9), 差不多 , 而 本 例 中 [0-9] yx 
和 .xj 是 一 样 的 。 用 它 来 替换 原来 的 表达 式 “.* ([0-9]+)J， 我 们 得 到 “.*(-*)J， 这 
& 152 RH *Subject:*(.*).* ARMM, LA'A FAD Rey FH. 





在 to (nitelknight|night) | 的 例子 中 ， 第 一 个 元 素 是 tj ， 它 将 会 重复 尝试 ， 直 到 在 目标 字符 串 中 找 
到 光 为 止 。 之 后 ， 就 检查 紧 随 其 后 的 字符 是 否 能 由 o| 匹配 ， 如 果 能 ， 就 检查 下 面 的 元 素 。 在 本 例 中 , “下 
面 的 元 素 ” 指 Cnitelknight|night) | 它 的 真正 含义 是 “inite | 或 者 knight, RÆ [night ”。 引 擎 会 依次 尝试 
这 3 种 可 能 。 我 们 (具有 高 级 神经 网 络 的 人 类 ) 能 够 发 现 ， 如 果 待 匹配 的 字符 串 是 tonight， 第 三 个 选择 能 
够 匹配 。 不 论 神经 学 起 源 〈 味 85) 如 何 ， 表 达 式 主导 的 引擎 必须 完全 测试 ， 才 能 得 出 结论 。 

尝试 mite| 的 过 程 与 之 前 一 样 : ULM In ， 然 后 是 ii ， 然 后 是 rt ， 最 后 是 fej 。”* 如 果 这 种 党 
试 失败 一 一 就 像 本 例 ， 引 擎 会 尝试 男 一 种 可 能 ， 如 此 继续 下 去 ， 直 到 匹配 成 功 或 是 报告 失败 。 表 达 式 中 的 
控制 权 在 不 同 的 元 素 之 间 转 换 ， 所 以 我 称 它 为 “表达 式 主导 ”。 

NEFA 引 擎 在 操作 上 的 优点 

实质 上 ， 在 表达 式 主导 的 匹配 过 程 中 ， 每 一 个 子 表达 式 都 是 独立 的 。 这 不 同 于 有 反 回 引用 ， 子 表达 式 之 


加 不 存在 内 在 联系 ， 而 只 是 整个 正则 表达 式 的 各 个 部 个 aa ae AA a ee 














文 、 括 号 以 及 匹配 量词 ) 的 层级 关系 Cayout) 控制 了 整个 匹配 过 程 。 

因为 NFA 引 苟 是 正则 表达 式 主导 的 ， 芍 驶 员 〈 也 就 是 编写 表达 式 的 人 〉 有 充足 的 机 会 来 实现 他 /她 期 望 
的 结果 《第 5 章 和 第 6 章 将 会 告诉 读者 ， 如 何 正确 高 效 地 实现 目标 ) 。 现 在 看 起 来 ， 这 点 还 有 些 模糊 ， 但 过 
一 段 束 会 变 清晰 。 











DFA5|#: 文本 主导 


DFA Engine:Text-Directed 
与 表达 式 主 导 的 NFA 不 同 ，DFA3 引 | 擎 在 扫 摘 字符 串 时 ， 会 记录 “当前 有 效 (currently in the works) ”的 
所 有 匹配 可 能 。 有 具体 到 tonight 的 例子 ， 引 擎 移动 到 t 时 ， 它 会 在 当前 处 理 的 匹配 可 能 中 添加 一 个 潜在 的 可 





能 : 
字符 串 中 的 位 置 正则 表达 式 中 的 位 置 
下 onight« 可 能 的 匹配 位 置 : t+ o(nite| knight |night), 
接 下 来 扫描 的 每 个 字符 ， 都 会 更 新 当前 的 可 能 匹配 序列 。 继 续 扫描 两 个 字符 以 后 的 情况 是 : 
字符 串 中 的 位 置 正则 表达 式 中 的 位 置 
atter“toni ght 可 能 的 匹配 位 置 : to (ni te|knight|ni ght), 


有 效 的 可 能 匹配 变 为 两 个 〈Jnight 被 淘汰 出 局 ) . fate, HERR PAn REVERS. ShAtVO we 
完成 后 ， 引 人 擎 发 现 匹 配 已 经 完成 ， 报 告 成 功 。 

我 称 这 种 方式 为 “文本 主导 ”， 征 因为 它 扫 摘 的 字符 串 中 的 每 个 字符 都 对 引擎 进行 了 控制 。 在 本 例 中 ， 
菏 个 未 完成 的 匹配 也 许 是 任意 多 个 《只 要 可 行 ) 匹配 的 开始 。 不 合适 的 匹配 可 能 在 扫 摘 后 继 文 字 时 会 被 去 
除 。 在 某 些 情 况 下 , “处 理 中 的 未 终结 匹配 (partial match in progress) ”可 能 就 是 一 个 完整 的 匹配 。 例 如 正 
则 表达 式 to C.) ? | ， 括 号 内 的 部 分 并 不 是 必须 出 现 的 ， 但 考虑 到 匹配 优先 的 性 质 ， 引 擎 仍然 会 尝试 匹 
配 括 亏 内 的 部 分 。 匹 配 过 程 中 ， 在 答 试 括号 内 的 部 分 时 ， 完 整 匹配 “〈'to') 已 经 保留 下 来 ， 以 应 付 插 号 中 的 
内 容 无 法 匹配 的 情况 。 

如 果 引 擎 发 现 ， 文 本 中 出 现 的 某 个 字符 会 令 所 有 处 理 中 的 匹配 可 能 失效 ， 束 会 返回 某 个 之 前 保留 的 完 
整 目 配 。 如 果 不 存 在 这 样 的 完整 匹配 ， 则 要 报告 在 当前 位 置 无 法 匹配 。 


第 一 想法 : 比较 NEA 与 DEFA 














First Thoughts: NFA and DFA in Comparison 

如 果 读 者 根据 上 和 面 介绍 的 知识 比较 NFA 和 DFA， 可 能 会 得 出 结论 : 一 般 情 况 下 ， 文 本 主导 的 DFA 引 擎 
要 快 一 些 。 正 则 表达 式 主导 的 NFA 引 擎 ， 因 为 需要 对 同样 的 文本 答 试 不 同 的 和 子 表 达 式 匹配 ， 可 能 会 当 忱 时 
半 《〈 台 好像 上 面 例子 中 的 3 个 分 文 ) 。 

这 个 结论 是 对 的 。 在 NFA 的 匹配 过 程 中 ， 目 标 文 本 中 的 某 个 字符 可 能 会 极 正 则 表达 式 中 的 不 同 部 分 重 
复 检测 (甚至 有 可 能 被 同一 部 分 反复 检测 ) 。 即 使 未 个 字 表 达 式 能 够 匹配 ， 为 了 检查 表达 式 中 剩 下 的 部 
分 ， 找 到 号 配 ， 筷 也 可 能 需要 再 一 次 应 用 〈 甚 至 可 能 反复 多 次 ) 。 单 独 的 子 表达 陈 可 能 匹配 成 功 ， 也 可 能 
失败 ， 但 是 ， 直 到 抵达 正则 表达 式 的 末尾 之 前 ， 我 们 都 无 法 确 知 全 局 匹配 成 功 与 否 〈 也 就 是 说 “不 到 最 后 天 
头 不 能 分 胜 人 负 (It’s not over until the fat lady sings) ”， 但 这 人 句 话 又 不 符合 本 段 的 语 境 ) o HR, DFAS ZENJ 
是 确定 型 的 (deterministic) 目标 文本 中 的 每 个 字符 只 会 检查 (最 多 ) 一 裔 。 对 于 一 个 已 经 岂 配 的 字 
伯 ， 你 无 法 知道 它 是 否 属 于 最 终 岂 配 ( 它 可 能 属于 最 终 会 失败 的 匹配 )， 但 因为 引擎 同时 记录 了 所 有 可 能 
的 匹配 ， 这 个 字符 只 需要 检测 一 次 ， 如 此 而 已 。 

正则 表达 式 引 擎 所 使 用 的 两 种 基本 技术 ， 都 对 应 有 正式 的 名 字 : 非 确定 型 有 人 穷 目 动机 CNFA) 和 确定 
BAA AVL (DFA) 。 这 两 个 名 字 实 在 是 太 人 饶舌 ， 上 所 以 我 坚持 只 用 DFA 和 NFA。 下 文中 不 会 出 现 它们 
的 全 称 了 ( 注 4) 。 

用 户 需 要 和 面 对 的 结果 

因为 NFA 具 有 表达 式 主 导 的 特性 ， 引 擎 的 匹配 原理 天 非常 重要 。 我 已 经 说 过 ， 通 过 改变 表达 式 的 编写 
方式 ， 用 户 可 以 对 表达 式 进行 多 方面 的 控制 。 拿 thdidhkifi kinux the aaa deom eZ | 


























节省 很 多 工夫 ， 比 如 下 面 这 3 种 方式 : 

e | to(ni(ght|te)|knight) , 

e | tonite|toknight|tonight | 

e | to(k?night{nite) | 

给 出 任意 文本 ， 这 3 个 表达 式 都 可 以 捕获 相同 的 结果 ， 但 是 它们 以 不 同 的 方式 控制 引擎 。 现 在 ， 我 们 
还 无 法 分 辨 这 3 者 的 优 务 ， 不 过 接 下 来 会 看 到 。 

DFA 的 情况 相 皮 引擎 会 同时 记录 所 有 的 匹配 选择 ， 因 为 这 3 个 表达 式 最终 能 够 捕获 的 文本 相同 ， 在 
写法 上 的 甜 异 并 无 意义 。 取 得 一 个 结果 可 能 有 上 百 种 途径 ， 但 因为 DFA 能 够 同时 记录 它们 《〈 有 点 神奇 ， 符 
稍 后 详 述 ) ， 选 择 哪 一 个 表达 式 并 无 区 别 。 对 纯粹 的 DFA 来 说 ， 即 使 abc| 和 [aa-a] (blb{1}lb) c) 看 来 
相差 巨大 ， 但 其 实 是 一 样 的 。 

如 有 果 要 摘 述 DFA， 我 能 想到 的 特征 有 : 

eDFAI 儿 配 很 迅速 。 

eDFAVL ACR — EK. 

eiKRiCDFADL ACE A - 

最 终 我 会 展开 这 3 点 。 

因为 NFA 是 表达 式 主导 的 ， 谈 论 它 是 件 很 有 意思 的 事情 。NFA 为 创造 性 思维 提供 了 丰 是 的 施展 空间 。 
调 校 好 一 个 表达 式 能 市 来 许多 收益 ， 调 校 不 好 则 会 市 来 严重 后 果 。 这 了 束 好 比 友 动机 的 烛 火 和 点 不 着 火 ， 他 
们 并 不 只 是 汽油 发 动机 的 专利 。 为 了 彻底 弄 明 日 这 个 问题 ， 我 们 来 看 NFA 最 午 要 的 部 分 : P 
(backtracking) 。 
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a 

Backtracking 

NFA 5/3 RPE, CMe FRAT CR, TEP m EPP FY BE TAY AE 
中 进行 选择 的 时 候 ， 它 会 选择 其 一 ， 同 时 记 住 另 一 个 ， 以 备 稍 后 可 能 的 需要 。 

项 要 做 出 选择 的 情形 包括 量词 (决定 是 耕 笑 试 妨 一 次 匹配 ) 和 多 选 结构 (决定 选择 哪个 多 选 分 文 ， 贸 
下 哪个 和 后 竹 试 )。 

不 论 选择 那 一 种 途径 ， 如 果 它 能 罗 配 成 功 ， 而 且 正 则 表达 式 的 余下 部 分 也 成 功 了 ，[ 匹 配 即 告 完 成 。 如 
果 正 则 表达 式 中 余下 的 部 分 最 终 匹 配 失败 ， 引 擎 会 知道 需要 回溯 到 之 前 做 出 选择 的 地 方 ， 选 择 其 他 的 备用 
分 文 继 续 宪 试 。 这 样 ， 引 筝 最 终 会 笑 试 表达 式 的 所 有 可 能 途径 (或 者 是 匹配 完成 之 前 需要 的 所 有 途径)。 


真实 世界 中 的 例子 : 面包 悄 














A Really Crummy Analogy 

[A] HH RE TEER BET op et AR DET eS. RE AER, A CARR ll, H 2E I H 
EJ NAS AY PAS SS EER. QURAN EI, PRAT AARC lel, FRB) HEM, WER, 
直到 找到 出 路 ， 或 者 走 完 所 有 没有 壬 试 过 的 路 。 

在 许多 情况 下 ， 正 则 引 获 必须 在 两 个 (或 更 多 ) 选项 中 做 出 选择 一 一 我 们 之 前 看 到 的 分 文 的 情况 残 是 
一 例 。 另 一 个 例子 是 ， 在 遇 到 ...x? .…| 时 ， 引 擎 必须 决定 是 否 尝试 匹配 Ixy 。 对 于 1...x+... | 的 情况 ， 
毫 无 疑问 ，1x| 至 少 尝试 匹配 一 次 一 一 因为 加 号 要 求 必须 匹配 至 少 一 次 。 第 一 个 x| 匹配 之 后 ， 此 要 求 已 
经 满足 ， 需 要 决定 是 否 尝试 下 一 个 |x| 。 如 果 决 定 进行 ， 还 要 决定 是 否 匹配 第 三 个 x| ， 第 四 个 1x, ， 如 
此 继续 。 每 次 选择 ， 其 实 束 是 酒 下 一 扒 “ 面 包 屑 ”， 用 于 提示 此 处 还 有 另 一 个 可 能 的 选择 《目前 还 不 能 确定 
TERE TULA) ， 保 留 起 来 以 备用 。 

一 个 简单 的 例子 

现在 来 看 个 完整 的 例子 ， 用 先前 的 “to Cnitelknightlnight) | 匹配 字符 串 ‘hot:tonic: tonight! ? (看 起 来 有 
点 无 聊 ， 但 是 个 好 例子 ) 。 第 一 个 元 素 't| 从 字符 串 的 最 左 端 开始 尝试 ， 因 为 无 法 匹配 小 :， 所 以 在 这 个 位 
置 岂 配 失 败 。 传 动 装 置 于 是 驱动 引擎 回 后 移动 ， 从 第 二 个 位 置 开 始 匹 配 (同样 也 会 失败 〉， 然 后 是 第 三 
个 。 这 时 候 tl 能 够 匹配 ， 接 下 来 的 “o | 无 法 匹配 ， 因 为 字符 串 中 对 应 位 置 是 一 个 空格 。 至 此 ， 本 轮 尝 试 
宣告 失败 。 

继续 下 去 ， 从 ...=tonic... 开 始 的 尝试 则 很 有 意思 。to 匹 配 成 功 之 后 ， 剩 下 的 3 个 多 选 分 支 都 成 为 可 能 。 
引擎 选取 其 中 之 一 进行 符 试 ， 留 下 其 他 的 备用 《也 残 是 洒 下 一 些 面包 届 ) 。 在 讨论 中 ， 我 们 假定 引擎 首 移 
选择 的 是 nitej 。 这 个 表达 式 被 分 解 为 " nj + ii + t+ ej” 在... -5052 遭遇 失败 。 但 此 时 的 情况 
与 之 前 人 不同， 这 种 失败 并 不 意味 看 整个 表达 式 岂 配 失 败 一 一 因为 仍然 存在 没有 壬 试 过 的 多 选 分 文 〈 束 好 像 
是 ， 我 们 仍然 可 以 找到 先前 留 下 的 面包 屑 ) 。 假 设 引 擎 然后 选择 knight| ， 那 么 马上 就 会 遭遇 失败 ， 因 为 
ki 不 能 匹配 mp?。 现 在 只 剩 下 最 后 的 选项 i'night! ， 但 它 不 能 失败 。 因 为 night| 是 最 后 尝试 的 选项 ， 它 的 
失败 也 束 意 味 看 整个 表达 式 在 ...stonic... 的 位 置 臣 配 失 败 ， 所 以 传动 机 构 会 驱动 引擎 继续 前 进 。 

直到 引擎 开始 从 ...,tonight! 处 开始 匹配 ， 情 况 又 变 得 有 趣 了 。 这 一 次 ， 多 选 分 支 night| 终于 可 以 匹 
配 字 符 串 的 结尾 部 分 了 《于 是 整体 匹配 成 功 ， 现 在 引擎 可 以 报告 匹配 成 功 了 了 ) 。 


回溯 的 两 个 要 后 









































Two Important Points on Backtracking 
回调 机 制 的 基本 原理 并 不 难 理解 ， 还 是 有 些 细节 对 实际 应 用 很 重要 。 它 们 是 ， 面 对 众多 选择 时 ， 哪 个 
分 文 应 当 自 和 完 选 择 ? 回溯 进行 时 ， 应 该 选取 哪个 保存 的 状态 ? 第 一 个 问题 的 答案 是 下 面 这 条 重要 诛 则 : 
如 有 需要 在 “进行 笑 试 ?和 ?* 跳 过 答 试 ?之 间 选 择 ， 对 于 匹配 优先 量词 ， 引 人 擎 会 优先 选择 “进行 答 试 ”， 而 对 于 
忽略 优先 量词 ， 会 选择 <“ 跳 过 答 试 ”。 


此 原则 影响 深远 。 对 于 新 手 来 说 ， 它 有 助 于 解 峰 沪 并 朱 四 酌 估 中 多 量 间 是 WEM 放 EUYjid 但 BOR 守 | L 





整 。 要 想 彻 底 卉 清楚 这 一 点 ， 我 们 需要 了 解 回溯 时 使 用 的 是 哪个 《或 者 是 哪些 个 ) 之 前 保存 的 分 文 ， 答 守 
H 

JE: 

F I 


E 离 当前 最 近 储 存 的 选项 融 是 当 本 地 失败 强制 回调 时 返回 上 的。 使 用 的 原则 有 是 LIFO Cast in first out， 后 进 先 
出 ) 。 


用 面包 居 比 喻 就 很 好 理解 一 “如果 前 面 是 死路 ， 你 只 需要 沿 原 路 返回 ， 直 到 找到 一 堆 面包 届 为 止 。 你 
会 遇 到 的 第 一 堆 面 包 届 就 是 最 近 洒 下 的 。 传 统 的 LIFO 比 喻 也 是 这 样 ， 就 像 堆 稍 盘 子 一 样 ， 最 后 天 上 去 的 盘 
肯定 是 最 先 拿 下 来 的 。 








Dp 


备用 状态 


Saved States 

FANFAIEMIAGASUIN ATE RG, ANESTH UE AAT“ ALKA (saved state) ”。 它 们 用 来 标记 : 在 需要 
te, DORR UMRE EINAR RN. ENE SPAM: 正则 表达 式 中 的 位 置 ， 和 未 答 试 的 分 文 在 
字符 串 中 的 位 置 。 因 为 它 是 NFA 匹 配 的 基础 ， 我 们 需要 再 看 一 遇 茶 些 已 经 出 现 过 的 窗 单 但 详细 的 例 于 ， 说 
明 这 些 状态 的 意义 。 如 采 你 觉得 现 有 的 内 容 都 不 难 恒 ， 请 继续 阅读 。 

未 进行 回溯 的 匹配 

来 看 个 简单 的 例子 ， 用 lab? c) 匹配 abc。 la; 匹配 之 后 ， 匹 配 的 当前 状态 如 下 : 


ta bc’ a. D?) 
À A 


现在 轮 到 Tb? ， 了， 正则 引擎 需要 决定 ， 是 需要 尝试 b 呢 ， 还 是 跳 过 ? 因为 ? 是 匹配 优先 的 ， 它 会 
尝试 匹配 。 但 是 ， 为 了 确保 在 这 个 尝试 最 终 失败 之 后 能 够 恢复 ， 引 警 会 把 : 


"a he” | ab? c) 
p A 


添加 到 备用 状态 序列 中 。 也 就 是 说 ， 稍 后 引擎 可 以 从 下 面 的 位 置 继续 匹配 : 从 正则 表达 式 中 的 b? ， 
之 后 ， 字 符 串 的 b 之 前 〈 也 就 是 当前 的 位 置 ) 匹配 。 这 实际 上 就 是 跳 过 b | 的 匹配 ， 而 问号 容许 这 样 做 。 
引擎 放下 面包 屑 之 后 ， 就 会 继续 向 前 ， 检 查 bj 。 在 示例 文本 中 ， 它 能 够 匹配 ， 所 以 新 的 当前 状态 变 


‘abc’ | ab? gi 
4 A 


BA c 也 能 成 功 匹 配 ， 所 以 整个 匹配 完成 。 备 用 状态 不 再 需要 了 ， 所 以 不 再 保存 它们 。 

进行 了 回溯 的 匹配 

如 果 需 要 匹配 的 文本 是 ac"， 在 尝试 b| 之 前 ， 一 切 都 与 之 前 的 过 程 相 同 。 显 然 ， 这 次 b| 无 法 匹 
配 。 也 就 是 说 ， 对 “.…? | 进行 尝试 的 路 走 不 通 。 因 为 有 一 个 备用 状态 ， 这 个 “局 部 匹配 失败 ”并 不 会 导致 整 
体 匹 配 失 败 。 引 和 擎 会 进行 回溯 ， 也 就 是 说 ， 把 “当前 状态 ”切换 为 最 近 你 存 的 状态 。 在 本 例 中 ， 情 况 束 是: 


[ 
ac ab? c] 
À A 




















在 b| 尝试 之 前 保存 的 尚未 尝试 的 选项 。 这 时 候 ， “cj 可 以 匹配 c， 所 以 整个 匹配 宣告 完成 。 
不 成 功 的 匹配 
现在 ， 我 们 用 同样 的 表达 式 匹 配 ‘abX”。 在 尝试 ib| 以 前 ， 因 为 存在 问号 ， 保 存 了 这 个 备用 状态 : 


“a bX’ | ab? c 
À A 


b) 能 够 匹配 ， 但 这 条 路 往 下 却 走 不 通 了 ， 因 为 'c) 无 法 匹配 X。 于 是 引擎 会 回溯 到 之 前 的 状态 ，“ 交 
还 "b 给 1cj 来 匹配 。 显 然 ， 这 次 测试 也 失败 了 。 如 果 还 有 其 他 保存 的 状态 ， 回 漳 会 继续 进行 ， 但 是 此 时 不 
存在 其 他 状态 ， 在 字符 串 中 当前 位 置 开始 的 整个 匹配 也 就 宣告 失败 。 

事情 到 此 结束 了 吗 ? HE. IRER ERN E inik E RRA R Xae COREE [ 








A Fy [ELH (pseudo-backtrack) 。 匹 配 重 新 开始 于 : 


‘a bX’ | | ab?cı 
À A 
ab X 


从 这 里 重新 开始 整个 匹配 ， 如 同 之 前 一 样 ， 所 有 的 道路 都 走 不 通 。 接 下 来 的 两 次 (从 ab 必 到 a5%、) 
都 告 失败 ， 所 以 最 终 会 报告 匹配 失败 。 

忽略 优先 的 匹配 

现在 来 看 最 开始 的 例子 ， 使 用 忽略 优先 匹配 量词 ， 用 lab? ? c) 来 匹配 cabc 。 a) 匹配 之 后 的 状态 如 


F: 
r 
“3 be’ a b??c) 
Š | A 


接 下 来 轮 到 b? ? | ， 引 擎 需要 进行 选择 ， 尝试 匹配 b, BEAR? 因为 ? ? 是 忽略 优先 的 ， 它 会 
首先 尝试 忽略 ， 但 是 ， 为 了 能 够 从 失败 的 分 支 中 恢复 ， 引 擎 会 保存 下 面 的 状态 : 


6 











》 [ 
abc a bc) 
À A 


到 备用 状态 列表 中 。 于 是 ， 引 擎 稍 后 能 够 用 正则 表达 式 中 的 Tb | 来 尝试 匹配 文本 中 的 “b (我 们 知道 这 
能 够 匹配 ， 但 是 正则 引擎 不 知道 ， 它 甚至 都 不 知道 是 否 会 要 用 到 这 个 备用 状态 ) 。 状 态 保存 之 后 ， 它 会 继 
续 向 前 ， 沿 着 忽略 匹配 的 路 走 下 去 : 


‘a be’ | ab?? c. 
[c 无 法 匹配 省 :， 所 以 引擎 必 须 回溯 到 之 前 保存 的 状态 : 
‘a be’ | "a be. 


显然 ， 此 时 匹配 可 以 成 功 ， 接 下 来 的 “ci 匹配 ‘Ce 。 于 是 我 们 得 到 了 与 使 用 匹配 优先 的 1ab? c| 同样 的 
结果 ， 虽 然 两 者 所 走 的 路 不 相同 。 








回 济 与 匹配 优先 

Backtracking and Greediness 

如 条 工具 软 件 使 用 的 是 NFA 正 则 表达 式 主 寻 的 回调 引擎 ， 理 解 正 则 表达 陈 的 回调 原理 就 成 了 高 效 完成 
任务 的 关键 。 我 们 已 经 看 到 ? | 的 匹配 优先 和 ? ? | 的 忽略 优先 是 如 何 工 作 的 ， 现 在 来 看 星 号 和 加 号 。 

星 号 、 加 号 及 其 回调 

如 果 认 为 xx | 基本 等 同 于 |x? x? x? x? x? x? .…| 《或 者 更 确切 地 说 是 
x (x (x (x...? )?)?)?)?)|，) ( 注 5) ， 那 么 情况 与 之 前 没有 大 的 差别 。 每 次 测试 星 号 作用 
的 元 妹 乙 前 ， 引 擎 都 会 保存 一 个 状态 ， 这 样 ， 如 末 测 试 失败 〈 或 者 测试 进行 下 去 遭遇 失败 ) ， 还 能 够 从 保 
存 的 状态 开始 匹配 。 这 个 过 程 会 不 断 重 复 ， 直 到 包含 星 号 的 答 试 完全 失败 为 止 。 

所 以 ， 如 果 用 “[0-9]+| 来 匹配 a1234-num?*，1[0-9]| 遇 到 4 之 后 的 空格 无 法 匹配 ， 而 此 时 加 号 能 够 回 
溯 的 位 置 对 应 了 四 个 保存 的 状态 : 








a 1 234 num 
a 12 34 num 
a 123 4 num 
a 1234, num 


也 就 是 说 ， 在 每 个 位 置 ，1[0-9]| 的 尝试 都 代表 一 种 可 能 。 在 “[0-9]| 遇 到 空格 匹配 失败 时 ， 引 擎 回 济 
[0=9 
到 最 近 保存 的 状态 (也 就 是 最 下 面 的 位 置 》， 选 择 四 见 寺 于 和 nx | tkidc.com 0 N 





"1234 num 


:。 当 然 ， 到 此 整个 正则 表达 式 已 经 结束 ， 所 以 我 们 知道 ， 整 个 匹配 宣告 完成 。 
‘a’ 1234: yO ae m sive 
a" ”并 不 在 列表 中 ， 因 为 加 号 限定 的 元 素 至 少 要 匹配 一 次 ， 这 是 必要 条 件 。 那 


[ * 

么 ， 如 果 正 则 表达 式 是 上 “局 ， 这 个 状态 会 保存 吗 ? GRR: 这 个 问题 得 动 点 脑筋 ) 。 要 知道 答案 ， 
wm 请 翻 到 下 一 页 ， 

重新 审视 更 完整 的 例子 

有 了 更 详细 的 了 解 之 后 ， 我 们 再 来 看 看 第 152 WA Tax 〈[0-9][0.9]) ， 的 例子 。 这 一 次 ， 我 们 不 是 只 
用 “匹配 优先 ”来 解释 为 什么 会 得 到 那样 的 匹配 结果 ， 我 们 能 够 根据 NFA 的 匹配 机 制 做 出 精确 解释 。 

以 ‘CA.95472.USA’ 为 例 。 在 1. 类 | 成 功 匹 配 到 字符 串 的 末尾 时 ， 星 号 约束 的 点 号 匹配 了 13 个 字符 ， 同 
时 保存 了 许多 备用 状态 。 这 些 状态 表明 稍 后 的 匹配 开始 的 位 置 ， 在 正则 表达 式 中 是 


[A — = 

1 在 字符 囊 中 则 是 点 号 每 次 匹配 时 保存 的 备用 状态 。 

现在 我 们 已 经 到 了 字符 串 的 末尾 ， 并 把 控制 权 交 给 第 一 个 1[0-9]| ， 显 然 这 里 的 匹配 不 能 成 功 。 没 问 
题 ， 我 们 可 以 选择 一 个 保存 的 状态 来 进行 尝试 〈 实 际 上 保存 了 许多 的 状态 ) 。 现 在 回溯 开始 ， 把 当前 状态 
设置 为 最 近 保 存 的 状态 ， 也 就 是 [.* | 匹配 最 后 的 A 之 前 的 状态 。 忽 略 (或 者 ， 如 果 你 愿意 ， 可 以 使 用 “ 交 
还 ”) 这 个 匹配 ， 于 是 有 机 会 用 1[0-9] | 匹配 这 个 A， 但 这 同样 会 失败 。 

这 种 “回溯 -尝试 ”的 过 程 会 不 断 循环 ， 直 到 引擎 交还 2 为 止 ， 在 这 里 ， 第 一 个 1[0-9] | 可 以 匹配 。 但 是 第 
二 个 “[0-9] | 仍然 无 法 匹配 ， 所 以 必须 继续 回溯 。 现 在 ， 之 前 尝试 中 第 一 个 “[0-9]| 是 否 匹 配 与 本 次 尝试 并 
无 关系 了 ， 回 漳 机 制 会 把 当前 的 状态 中 正则 表达 式 内 的 对 应 位 置 设置 到 第 一 个 [0-9]| 以 前 。 我 们 看 到 ， 当 
前 的 回溯 同样 会 把 字符 串 中 的 位 置 设置 到 7 以 前 ， 所 以 第 一 个 “[0-9]| 可 以 匹配 ， 而 第 二 个 “[0-9]| 也 可 以 
“CA*95472,°USA 


ť Ey A 
Ww YEE 9 




















(匹配 2) 。 所 以 ， 我 们 得 到 一 个 匹配 结果 '"，$1 得 到 72。 

需要 注意 的 是 ， 第 一 ， 回 湖 机 制 不 但 需要 重新 计算 正则 表达 式 和 文本 的 对 应 位 置 ， 也 需要 维护 括号 内 

的 子 表达 式 所 匹配 文本 的 状态 。 在 匹配 过 程 中 ， 每 次 回溯 都 把 当前 状态 中 正则 表达 式 的 对 应 位 置 指向 括号 

[A * = = 
之 前 ， 也 就 是 [Ax 。(〈[0-9][0-9]) ，。 在 这 个 简单 的 例子 中 ， 所 以 它 等 价 于 a OTP O21 因此 
我 说 < 使 用 第 一 个 [0-9] 之 前 的 位 置 "， 然而， 回溯 对 括号 的 这 种 处 理 ， 不 但 需要 同时 维护 $1 的 状态 ， 也 会 影 
响 匹 配 的 效率 。 

最 后 需要 注意 的 一 点 也 许 读者 早 就 了 解 ， 由 星 号 〈 或 其 他 任何 匹配 优先 量词 》 限定 的 部 分 不 受 后 面 元 
素 影 响 ， 而 只 是 匹配 尽 可 能 多 的 内 容 。 在 我 们 的 例子 中 ， [.* | 在 点 号 匹配 失败 之 前 ， 完 全 不 知道 ， 到 底 
应 该 在 哪个 数字 或 者 是 其 他 什么 地 方 停 下 来 。 在 [A.x (09 ， 的 例子 中 我 们 看 到 ， TI0-9]+， 只 能 匹配 
一 位 数字 (F153) 。 











[| 日 日 Linux[| || www.linuxidc.com [] [] 


关于 匹配 优先 和 回溯 的 更 多 内 容 


More About Greediness and Backtracking 

NFA 和 DFA 都 具备 许多 匹配 优先 相关 的 特性 (也 从 中 获 益 ) 。 (DFA 不 支持 忽略 优先 ， 所 以 我 们 现在 
只 关注 匹配 优先 ) 。 我 将 考察 两 种 引擎 共同 文 持 的 匹配 优先 特性 ， 但 只 会 用 NFA 来 讲解 。 这 些 内 容 对 DFA 
也 适用 ， 但 原因 与 NFA 不 同 。DFA 是 匹配 优先 的 ， 使 用 起 来 很 方便 ， 这 一 点 我 们 只 需要 记 住 束 够 了 ， 而 且 
介绍 起 来 也 很 乏味 。 相 反 ，NFA 的 匹配 优先 束 很 值得 一 谈 ， 因 为 NFA 是 表达 式 主导 的 ， 所 以 匹配 优先 的 特 
性 能 产生 许多 神奇 的 结果 。 除 了 忽略 优先 ，NFA 还 提供 了 其 他 许多 特性 ， 比 如 环视 、 条 件 判 断 
(conditions) 、 友 回 引 用 ， 以 及 团 化 分 组 。 最 重要 的 是 NFA 能 让 使 用 者 直接 操控 匹配 的 过 程 ， 如 果 运 用 得 
当 ， 这 会 带 来 人 很 大 的 方便 ， 但 也 可 能 种 来 某 些 性 能 问题 (具体 见 第 6 章 ) 。 








测试 答案 


o 162 页 测试 的 答案 

如 果 用 [0-9]*| 匹 配 “a*1234*num ,备用 状态 是 否 包 括 ‘a’ 1234-num’ ? 
答案 是 否定 的 。 之 所 以 提 这 个 问题 ， 是 因为 这 种 错误 很 常见 。 记 得 吗 ， 由 星 号 限定 的 
部 分 总 是 能 够 匹配 。 如 果 整 个 表达 式 都 由 星 号 控制 ， 它 就 能 够 匹配 任何 内 容 。 在 字符 
事 的 开始 位 置 ， 传 动机 构 对 引擎 进行 第 一 次 尝试 时 的 状态 ， 当 然 算 匹配 成 功 。 在 这 种 
情况 下 ， 正 则 表达 式 匹 配 a’1234°num ， 而 且 在 此 处 结尾 一 一 和 它 根本 没有 触及 到 那 
些 数 字 。 

如 果 没 答对 也 不 要 紧 ， 因 为 这 种 情况 还 是 有 可 能 发 生 的 。 如 果 在 表达 式 中 ，[0-9]* 
之 后 还 出 现 了 某 些 元 素 ， 因 为 它们 的 存在 ， 引 擎 在 达到 下 面 状 态 之 前 无 法 获得 全 局 匹 





MA, BR “1 会 生成 下 面 的 状态 : 





不 考虑 这 些 拳 异 的 话 ，[ 罗 配 的 结 末 通 第 是 相通 的 。 我 介绍 的 内 容 适 用 于 两 种 引擎 ， 除 了 使 用 表达 式 主 
导 的 NFA 引 擎 。 读 完 本 章 ， 该 者 会 明日 ， 在 什么 情况 下 两 种 引擎 的 结 朱 会 不 一 样 ， 以 及 为 什么 会 不 一 致 。 


匹配 优先 的 问题 


Problems of Greediness 

在 上 例 中 已 经 看 到 ， x 经 常会 匹配 到 一 行文 本 的 末尾 ( 注 6) 。 这 是 因为 x) 匹配 时 只 从 自身 出 
发 ， 死 配 尽 可 能 多 的 内 容 ， 上 只 有 在 全 局 匹配 需要 的 情况 下 才 会 “被 迫 ?交还 一 些 字 符 。 有 些 时 候 问 题 很 严 
重 。 来 看 用 一 个 匹配 双 引号 文本 的 例子 。 读 者 首先 想到 的 可 能 是 '" .x "| ， 那 么 ， 请 运用 我 们 刚刚 学 到 
的 关于 1. 类 | 的 知识 ， 猜 一 猿 用 它 匹配 下 面 文本 的 结果 : 

The name " McDonald's " is said " makudonarudo ”in Japanese. 


BEAR EE TULARE, SESE ACA AIM ER RRE ERA RR Beary) 站 

















Ck) 能 够 匹配 任何 字符 ， 所 以 它 会 一 直 匹 配 到 字符 串 的 未 尾 。 为 了 让 最 后 的 双 引 号 能 够 匹配 ， bx) 会 不 
靳 交还 字符 《或 者 ， 更 确切 地 说 ， 是 正则 引擎 强迫 它 回 退 ) ， 直 到 满足 为 止 。 最 后 ， 这 个 正则 表达 陈 匹 配 
的 结果 束 古 : 
The name "McDonald's" is said "makudonarudo" in Japanese. 

这 显然 不 是 我 们 期 望 的 结果 。 我 之 所 以 提醒 读者 不 要 过 分 依赖 “.* | ， 这 就 是 原因 之 一 ， 如 果 不 注意 
兄 配 优先 的 特性 ， 结 果 往 往 出 乎 意料 。 

那么 ， 我 们 如 何 能 够 只 取得 " McDonald's " Ye? 关键 的 问题 在 于 要 认识 到 ， 我 们 和 希望 匹配 的 不 是 双 引 
号 之 间 的 “任何 文本 ”， 而 是 “ 除 双 引 号 以 外 的 任何 文本 "。 如 果 用 TIA") 取代 .大 | ， 就 不 会 出 现 上 面 的 
问题 。 

使 用 TA oe "| 时， 正则 引擎 的 基本 匹配 过 程 跟 上 面 是 一 样 的 。 第 一 个 双 引 号 匹配 之 后 ， TI[A" ] 
类 | 会 匹配 尽 可 能 多 的 字符 。 在 本 例 中 ， 就 是 McDonald's， 因 为 '[^"] 无 法 匹配 之 后 的 双 引 号 。 此 时 ， 控 
制 权 转移 到 正则 表达 式 末 尾 的 '" | 。 而 它 刚 好 能 够 匹配 ， 所 以 获得 全 局 匹配 : 


The name "McDonald's", is said "makudonarudo" in Japanese. 


事实 上 ， 可 能 还 存在 一 种 出 乎 读者 预料 的 情况 ， 因 为 在 大 多 数 流派 中 ， '[^" ]| 能 够 匹配 换行 符 ， 而 
点 号 则 不 能 。 如 果 不 想 让 表达 式 匹 配 换行 符 ， 可 以 使 用 TA "An 。 

















多 字符 “引文 ” 


Multi-Character"Quotes" 

第 1 章 出 现 了 对 HIML tag 的 匹配 ， 例 如 ， 浏 顺 亏 会 把 二 B>very 雪 /了 > 中 的 “very” 演 染 为 粗 体 。 对 <B 
>..….</BB> 的 匹配 生 试 看 起 来 与 对 双 引 号 匹配 的 情形 很 相似 ， 只 是 “ 双 引 号 ?在 这 里 成 了 多 字符 构成 的 和 < 也 > 
和 二 /有 之 。 与 双 引 号 字符 串 的 例子 一 样 ， 使 用 [.x | 匹配 多 字符 “引文 "也 会 出 错 : 

---<B>Billions</B> and <B>Zillions</B> of suns::: 


[<B>.x </B>) 中 匹配 优先 的 .类 | 会 一 直 匹 配 该 行 结尾 的 字符 ， 回 渊 只 会 进行 到 <B>) 能 够 
匹配 为 止 ， 也 就 是 最 后 一 个 二 阳 之 ， 而 不 是 与 匹配 开头 的 “<<B> | XAR <B>] 。 

不 地 的 是 ， 因 为 结束 tag 不 是 单个 字符 ， 所 以 不 能 用 之 前 的 办 法 ， 也 就 是 “排除 型 字符 组 ”来 解决 ， 即 我 
们 不 能 期 望 用 "<B>>[^</B>>]* </B>, 解决 问题 。 字 符 组 只 能 代表 单个 字符 ， 而 我 们 需要 的 ' </B> 
是 一 组 字符 。 请 不 要 被 </B>], 迷惑 ， 它 只 是 表示 一 个 不 等 于 < 、>、/、B 的 字符 ， 等 价 于 <> 
B] ， 而 这 显然 不 是 我 们 想 要 的 “ 除 二 /B 二 结构 之 外 的 任何 内 容 *”( 当 然 ， 如 果 使 用 环视 功能 ， 我 们 可 以 规 
定 ， 在 某 个 位 置 不 应 该 匹配 </B> | ， 下 一 节 会 出 现 这 种 应 用 ) 。 


使 用 忽略 优先 量词 





Using Lazy Quantifiers 

上 面 的 问题 之 所 以 会 出 现 ， 原 因 在 于 标准 量词 是 匹配 优先 的 。 汞 些 NFA 文 持 忽 略 优先 的 量词 (只 
141), x? 就 是 与 x 对 应 的 忽略 优先 量词 。 我 们 用 "<B>.* ?</B> | 来 匹配 : 

...<B>Billions</B> and <B> Zillions</B> of suns... 

开始 的 <=B> | RZJ, Lx? | 首先 决定 不 需要 匹配 任何 字符 ， 因 为 它 是 忽略 优先 的 。 于 是 ， 控 
制 权 交 给 后 面 的 < | 符号 : 











nem [ 
‘<B> Billions” BBS 


此 时 < 无 法 匹配 ， 所 以 控制 权 交 还 给 Lx? | ， 因 为 还 有 未 尝试 过 的 匹配 可 能 (事实 上 能 够 进行 多 
次 匹配 尝试 ) 。 它 的 匹配 尝试 是 步步为营 的 “begnjdginblip 日 JA uE VW inari one N 





下 国 线 的 B。 此 时 ， 关 ?又 必须 选择 ， 十 继续 答 试 死 配 ， 还 是 忽略 ? 因为 它 是 忽略 优先 的 ， 会 首先 选择 忽 
We, PE PRA |<) 仍然 无 法 匹配 ， 所 以 .大 ? | 必须 继续 尝试 未 匹配 的 分 支 。 在 这 个 过 程 重复 8 次 之 后 ， 
Lx? | 最 终 匹 配 了 Billions, Jet, FRA <) 〈 以 及 整个 </B>, ) 都 能 匹配 : 
---<B>Billions</B> and <B>Zillions</B> of suns::: 
MARIES, eS ZR VOR Soe a) GR A, (EIR ST RAI. TRI HR, 
ANS OL Be el eR EAS, ALA ETE EES) GEERT ED 的 事情 。 当 然 ， 缺 乏 
经 验 的 程序 员 也 可 能 错误 地 使 用 忽略 优先 量词 。 事 实 上 ， 我 们 刚刚 做 的 或 许 就 不 正确 。 如 果 用 “<B>. 
x? </B>; 来 匹配 : 
“…<B>Billions and <B>Zillions</B> of suns… 
结果 如 上 上 图， 虽然 我 假设 逻 配 的 结果 取决 于 具体 的 需求 ， 但 我 仍然 认为 ， 这 种 情况 下 的 结果 不 是 用 户 
WAN. Aik, |.*? | 必然 会 匹配 Zillions 左 边 的 <B>>， 一 直到 </B>， 
这 个 例子 很 好 地 说 明了 ， 为 什么 通 利 情况 下 ， 忽 略 优先 量词 并 不 是 排除 类 的 完美 符号 。 在 | UK" 
的 例子 中 ， 使 用 '[ 和 ^" ]| 替换 点 号 能 避免 跨越 引号 的 匹配 一 一 这 正 是 我 们 希望 实现 的 功能 。 
如 果 支 持 排除 环视 (至 133) ， 我 们 就 能 得 到 与 排除 型 字符 组 相当 的 结果 。 比 如 ，' (? ! <B>) | 
这 个 测试 ， 只 有 当 雪 了 B> 不 在 字符 串 中 的 当前 位 置 时 才能 成 功 。 这 也 是 “<B>>.x? </B>) 中 的 点 号 期 望 
匹配 的 内 容 ， 所 以 把 点 号 改 为 CO ! <B>) .) | 得 到 的 正则 表达 式 ， 就 能 准确 匹配 我 们 期 望 的 内 容 。 
把 这 些 综 合 起 来 ， 结 果 有 点 儿 难 看 履 ， 所 以 我 选用 市 注释 的 守 松 排列 模式 〈 罕 111) 来 讲解 : 

















<B> # “匹配 开头 的 <B> 
( # 然后 只 匹配 尽 可 能 少 的 内 容 
(vi <B> ) # ”如果 不 是 <B>... 
. # ”..。. 任何 字符 都 可 以 
) *? = 
</B> # ... 直到 遇 到 结束 标记 
使 用 了 环视 功能 之 后 ， 我 们 可 以 重新 使 用 普通 的 匹配 优先 量词 ， 这 样 看 起 来 更 清 芭 ; 
<B> # 匹配 开头 的 <B> 
( # 然后 匹配 尽 可 能 多 的 内 容 
(2?! </? B>) # 如 果 不 是 <B>， 也 不 是 </B> ... 
# a... 任何 字符 都 可 以 
= # ”( 现 在 是 匹配 优先 的 量词 ) 
</B> # <ANNO> ... 直到 结束 分 隔 符 匹配 





现在 ， 环 视 功 能 会 禁止 正则 表达 式 的 主体 (man body) PLAL<B>FAI</B> ZINA, 3X eR 
之 前 试图 用 忽略 优先 量词 解决 的 问题 ， 所 以 现在 可 以 不 用 忽略 优先 功能 了 。 这 个 表达 式 还 有 能 够 改进 的 地 
方 ， 我 们 将 在 第 6 半 关 于 效率 的 讨论 中 看 到 它 (270) 。 


匹配 优 和 抑 和 忽略 优先 都 期 望 狄 得 匹配 


Greediness and Laziness Always Favor a Match 

IZ — PB 2 ANTI C51) . RISER PT A Ea PI A AG 
申 一 下 基本 的 问题 : AER RA BC ae as ed el, “1.625? 或 者 "3.00" 有 时 候 会 变 
成 “1.62500000002828” 和 “3.00000000028822”。 为 解决 这 个 问题 ， 我 使 用 : 

$price=~s/(\.\d\d[1-9]?)\d * /$1/; 


来 保存 $price 小 数 点 后 头 两 到 三 位 十 进 制 数字 。 add 匹配 最 开始 两 位 数字 ， 而 [1-9]? | 用 来 匹配 
能 出 现 的 不 等 于 零 的 第 三 个 数字 。 l . 
A [| 日 日 Linux[| [|] www.linuxidc.com |] [] 








然后 我 与 道 : 

到 现在 ， 我 们 能 够 匹配 的 任何 内 容 都 是 布 望 保留 的 ， 所 以 用 括号 包围 起 来 ， 作 为 $1 捕 获 。 然 后 瓯 能 在 
replacement 字 符 串 中 使 用 $1。 如 果 这 个 正则 表达 式 能 够 四 配 的 文本 就 等 于 $1， 那 么 我 们 就 是 用 一 个 文本 取 
REAR 这 没有 多 少 意 义 。 然 而 ， 我 们 继续 匹配 $1 括 号 之 外 的 部 分 。 在 和 蔡 代 字符 串 中 它们 并 不 出 现 ， 
所 以 结果 束 是 它们 被 删 反 了 。 在 本 例 中 , “要 删 摊 ?的 文本 束 是 任何 多 余 的 数字 ， 也 残 是 正则 表达 式 中 末尾 
的 dx) 匹配 的 部 分 。 

到 现在 看 起 来 一 切 正常 ， 但 是 ， 如 果 $price 的 数据 本 身 规 范 格式 ， 会 出 现 什么 问题 呢 ? 如 果 $price 是 
27.625, HSA |\\d\d[1-9]? | 能 够 匹配 整个 小 数 部 分 。 因 为 dx | 无 法 匹配 任何 字符 ， 整 个 替换 就 是 
用 '.625 蔡 换 '.625' 一 一 相当 于 白费 工夫 。 

结果 当然 是 我 们 需要 的 ， 但 是 否 存 在 更 有 效率 的 办 法 ， 只 进行 真正 必要 的 替换 〈 也 就 是 ， 只 有 当 i\d 
类 | 确实 能 够 匹配 到 某 些 字符 的 时 候 才 替换 ) WE? 当然 ， 我 们 知道 怎样 表示 “至 少 一 位 数字 ”! 只 要 把 d 
xi 替换 为 d+ 就 好 了 : 

$price =~ s/(\.\d\d[1-9]?) \d+/$1/ 


对 于 “1.62500000002828” 这 样 复杂 的 数字 ， 正 则 表达 式 仍 然 有 效 ， 但 是 对 于 “9.43” 这 种 数字 ， 末 尾 的 
\d+) 不 能 匹配 ， 所 以 不 会 替换 。 所 以 ， 这 是 个 了 不 起 的 改动 ， 对 吗 ? 不 ! 如 果 要 处 理 的 数字 是 27.625， 
情况 如 何 呢 ? 我 们 希望 这 个 数字 能 够 被 忽略 ， 但 是 这 不 会 发 生 。 请 仔细 想 想 27.625 的 匹配 过 程 ， 尤 其 是 表 
达 式 如 何 处 理 ‘5’ 这 个 数字 。 














| 
VY Ais ` ÀJ y y ÀJ Ty A pl, AY p (J d 四 1-9 ? d+ - a (3 625 ÀJ 
知道 答案 之 后 ， 这 个 问题 就 变 得 非常 简单 了 。 在 al 1?)\ 匹配 “'eeSS> 5, 


Nat 无 法 匹配 。 但 这 并 不 会 影响 整个 表达 式 的 匹配 ， 因 为 就 正则 表达 式 而 言 ， 由 1[1-9]| 匹配 ‘5’ 只 是 可 
选 的 分 支 之 一 ， 还 有 一 个 备用 状态 尚未 尝试 。 它 容许 [1-9]? | 匹配 一 个 空 字符 ， 而 把 5 留 给 至 少 必须 匹配 
一 个 字符 的 Td+ |。 于是， 我 们 得 到 的 是 错误 的 结果 .625 被 葵 换 成 了 .62。 

如 果 '[1-9]? | 是 忽略 优先 的 又 如 何 呢 ? 我 们 会 得 到 同样 的 匹配 结果 ， 但 不 会 有 “ 先 匹配 5 再 回溯 "的 过 
程 ， 因 为 忽略 优先 的 T[1-9]? ?| 首先 会 忽略 尝试 匹配 的 选项 。 所 以 ， 忽 略 优先 量词 并 不 能 解决 这 个 问题 。 


还 配 优先 、 和 忽略 优先 和 回 济 的 要 哩 


The Essence of Greediness,Laziness,and Backtracking 

之 前 的 革 市 各 诉 我 们 ， 正 则 表达 式 中 的 祭 个 元 系 ， 无 论 古 匹配 优先 ， 还 是 忽略 优先 ， 部 古 为 全 局 匹配 
服务 的 ， 在 这 一 皇上 【对 前 面 的 例子 来 说 它们 没有 区 列 。 如 果 全 局 匹配 需要 ， 无 论 是 匹配 优先 (或 是 忽 
略 优先 ) ， 在 遇 到 “本 地 匹配 失败 时， 引擎 都 会 回归 到 备用 状态 (按照 足迹 返回 找到 面包 届 )， 然 后 尝试 
尚未 竹 试 的 路 径 。 无 论 罗 配 优 和 完 还 是 忽略 优先 ， 只 要 引擎 报 各 匹配 失败 ， 它 束 必 然 竹 试 了 所 有 的 可 能 。 

测试 路 径 的 先后 顺序 ， 在 逻 配 优先 和 忽略 优先 的 情况 下 是 不 同 的 (这 束 是 两 者 存在 的 理由 ) ， 但 是 ， 
只 有 在 测试 完 所 有 可 能 的 路 径 之 后 ， 才 会 最 终 报告 匹配 失败 。 

相反 ， 如 果 只 有 一 条 可 能 的 路 和 任 ， 那 么 使 用 匹配 优先 量词 和 忽略 优先 量词 的 正则 表达 式 都 能 找到 这 个 
结果 ， 只 是 他 们 笠 试 路 人 径 的 次 序 不 同 。 在 这 种 情况 下 ， 选 择 匹 配 优 先 还 是 忽略 优先 ， 并 不 会 影响 匹配 的 结 
末 ， 受 影响 的 只 十 引擎 在 达到 最 终 匹 配 之 前 需要 竹 试 的 次 数 〈 这 是 天 于 效率 的 问题 ， 第 6 章 将 会 谈 到 ) 。 

最 后 ， 如 果 存在 不 止 一 个 可 能 的 匹配 结果 ， 那 么 理解 匹配 优先 、 忽 略 优先 和 回溯 的 读者 ， 就 明白 应 该 
如 何 选择 。 lk" | 有 3 个 可 能 的 匹配 结果 : 


The name "McDonald's" s said "makudonarudo" in Japenese. 
= 


























我 们 知道 ， 使 用 匹配 优先 星 号 的 " .x " | 匹配 最 长 的 结果 ， 而 使 用 忽略 优先 星 号 的 " .大 ? "| 匹配 
最 短 的 结果 。 


占有 优先 量词 和 固化 分 组 


Possessive Quantifiers and Atomic Grouping 站 0 [0 Linux[] | www.linuxidc.com | | | 


上 一 页 中 “625: 的 例子 展示 了 关于 NFA 匹 配 的 重要 知识 ， 也 让 我 们 认识 到 ， 针 对 这 个 具体 的 例子 ， 考 虑 
不 仔细 就 会 带 来 问题 。 针 对 某 些 流 浅 提供 了 工具 来 帮助 我 们 ， 但 是 在 接触 它们 以 前 ， 必 须 彻 底 弄 明白 “匹配 
优先 、 忽 略 优先 和 回调 的 要 旨 ” 这 一 他。 如 采访 者 还 有 不 明 昌 的 地 方 ， 请 务必 仔细 陪读 上 一 节 。 

那么 ， 仍 然 来 考虑 .625' 的 例子 ， 想 想 我 们 真正 的 目的 。 我 们 知道 ， 如 果 匹 配 能 够 进行 到 C\Ad\d[1- 
9]? ) -Ad+| 中 标记 的 位 置 ， 我 们 就 不 希望 进行 回 湖 。 也 就 是 说 ， 我 们 希望 的 是 ， 如 果 可 能 ，“[1-9]| 能 够 
一 个 字符 ， 果 真如 此 的 话 ， 我 们 不 希望 交还 这 个 字符 。 或 者 说 的 更 直 白 一 些 就 是 ， 如 果 需 要 的 话 ， 我 们 希 
望 在 1[1-9]| 匹配 的 字符 交还 之 前 ， 整 个 表达 式 就 匹配 失败 。 这 个 正则 表达 式 匹配 .625' 时 的 问题 在 于 ， 
它 不 会 匹配 失败 ， 而 是 进行 回调 ， 答 试 其 他 备用 状态 ) 。 

那么 ， 如 果 我 们 能 够 避免 这 些 备 用 状态 昵 〈 也 就 是 在 [1-9] 进 行 尝试 之 前 ， 放 弃 ? | 保存 的 状态 ，) 2 
如 果 没 有 退路 ，“[1-9]| 的 匹配 就 不 会 交还 。 而 这 就 是 我 们 需要 的 ! 但 是 ， 如 果 没 有 了 这 个 备用 状态 会 发 生 
什么 ? 如 果 我 们 用 这 个 表达 式 来 匹配 .5000' 呢 ? 此 时 “ [1-9]| 不 能 匹配 ， 就 确实 需要 回 湖 ， 放 弃 [1-9] | ， 
让 之 后 的 \d+| 能够 匹配 需要 删除 的 数字 。 

听 起 来 ， 我 们 有 两 种 相反 的 要 求 ， 但 是 仔细 考虑 考虑 丈 会 及 现 ， 我 们 真正 需要 的 是 ， 只 有 在 某 个 可 选 
元 素 已 经 匹配 成 功 的 情况 下 才 抛 弃 此 元 素 的 < 忽略” 状态。 也 就 是 说 ， 如 果 [1-9]| 能 够 成 功 匹配 ， 就 必须 抛 
弃 对 应 的 备用 状态 ， 这 样 就 永远 也 不 会 回 退 。 如 果 正 则 表达 式 的 流派 支持 固化 分 组 ' (? >...) = 
139) ， 或 者 占有 优先 量词 [1-9]? +, (142) ， 就 可 以 这 么 做 。 首 先 来 看 固化 分 组 。 

用 (? >...) 实现 固化 分 组 

具体 来 说 ， 使 用 O >...) | 的 匹配 与 正常 的 匹配 并 无 差别 ， 但 是 如 果 匹 配 进行 到 此 结构 之 后 〈 也 就 
是 ， 进 行 到 闭 括 写 之 后 〉， 那 么 此 结构 体 中 的 所 有 备用 状态 都 会 被 放弃 。 也 就 是 说 ， 在 固化 分 组 匹配 结束 
时 ， 它 己 经 匹配 的 文本 已 经 固化 为 一 个 单元 ， 只 能 作为 整体 而 保留 或 放弃 。 括 号 内 的 子 表达 式 中 未 尝试 过 
的 备用 状态 都 不 复 存在 了 ， 所 以 回溯 永远 也 不 能 选择 其 中 的 状态 (至 少 是 ， 当 此 结构 匹配 完成 时 , “锁定 
(locked in) ”在 其 中 的 状态 ) 。 

所 以 ， 让 我 们 来 看 ”Cdd (? >[1-9]? ) ) \d+) 。 在 固化 分 组 内 ， 量 词 能 够 正常 工作 ， 所 以 如 果 
[1-9], 不 能 匹配 ， 正 则 表达 式 会 返回 1? | 留 下 的 备用 状态 。 然 后 匹配 脱离 固化 分 组 ， 继 续 前 进 到 
\d+) 。 在 这 种 情况 下 ， 当 控制 权 离开 固化 分 组 时 ， 没 有 备用 状态 需要 放弃 (因为 在 固化 分 组 中 没有 创建 
任何 备用 状态 ) 。 

如 果 [1-9], 能 够 匹配 ， 匹 配 脱离 国 化 分 组 之 后 ，“? | 保存 的 备用 状态 仍然 存在 。 但 是 ， 因 为 它 属于 
己 经 结束 的 固化 分 组 ， 所 以 会 被 抛弃 。 匹 配 ‘.625’ 或 者 .625000’ 时 就 会 发 生 这 种 情况 。 在 后 一 种 情况 下 ， 放 


弃 那 些 状态 不 会 带 来 任何 麻烦 ， 因 为 Na+, 匹配 的 是 “5“ 225 ， 到 这 里 正则 表达 式 已 经 完成 匹配 。 但 
是 对 于 .625’ 来 说 ， 因 为 "d+ 无 法 匹配 ， 正 则 引擎 需要 回溯 ， 但 回溯 又 无 法 进行 ， 因 为 备用 状态 已 经 不 存 
在 了 。 既 然 没 有 能 够 回溯 的 备用 状态 ， 整 体 匹 配 也 就 失败 ，“.625;, 不 需要 处 理 ， 而 这 正 是 我 们 期 望 的 。 
固化 分 组 的 要 中 
从 第 168 页 开始 的 “匹配 优先 、 忽 略 优先 和 回溯 的 要 由 ”这 一 节 ， 说 明了 一 个 重要 的 事实 ， 即 匹配 优先 和 
忽略 优先 都 不 会 影响 需要 检测 路 径 的 本 身 ， 而 只 会 影响 检测 的 顺序 。 如 果 不 能 匹配 ， 无 论 是 按照 匹配 优先 
还 是 忽略 优先 的 顺序 ， 最 终 每 条 路 径 都 会 被 测试 。 
然而 ， 国 化 分 组 与 它们 截然 不 同 ， 因 为 固化 分 组 会 放弃 某 些 可 能 的 路 径 。 根 据 具 体 情况 的 不 同 ， 放 弃 
备用 状态 可 能 会 导致 不 同 的 结果 
e 毫 无 影响 如 果 在 使 用 备用 状态 之 前 能 够 完成 匹配 ， 固 化 分 组 就 不 会 影响 匹配 。 我 们 刚刚 看 
过 .625000: 的 匹配 。 全 局 匹配 在 备用 状态 尚未 起 作用 之 前 束 已 经 完成 。 
,导致 匹配 失败 放弃 备用 状态 可 能 意味 着 ， 本 类 有 可 能 成 功 的 匹配 现在 不 可 能 成 功 了 。'625 的 例 了 就 
是 如 此 。 
。 改 变 匹 配 结果 在 某 些 情况 下 ， 放 弃 备用 状态 可 能 得 到 不 同 的 匹配 结 
e 加 快报 告 匹 配 失败 的 速度 如 果 不 能 找到 匹配 对 象 ， 放 弃 备 用 状态 可 能 能 让 正则 引擎 更 快 地 报告 匹配 
失败 。 先 做 个 小 测验 ， 然 后 我 们 来 谈 这 点 。 


吕 小 测验 : | (? >x?) | 是 什么 意思 ? CREPUAL (aac HA t Wa Wainuxidc.com [] [ 




































































菏 些 状态 可 能 保留 在 匹配 过 程 中 ， 引 人 擎 退出 固化 分 组 时 ， 放 弃 的 只 是 固化 分 组 中 创建 的 状态 。 而 之 前 
0 
HDAC « 

使 用 固化 分 组 加 快 匹 配 失败 的 速度 我 们 一 眼 就 能 看 出 ，“ A\w+: | 无 法 匹配 ‘Subject*， 因 为 ‘Subject’ 中 
\ 含 由 号 ， 但 正则 引擎 必须 经 过 竹 试 才能 得 到 这 个 结论 。 

第 一 次 检查 : | 时 ， ‘w+, 已 经 匹配 到 了 字符 串 的 结尾 ， 保 存 了 若干 状态 Ww) 匹配 的 每 个 字 
符 ， 都 对 应 有 “忽略 ”的 备用 状态 (第 一 个 除外 ， 因 为 加 号 要 求 至 少 匹 配 一 次 ) 。 : | 无 法 匹配 字符 串 的 末 
尾 ， 所 以 正则 引擎 会 回调 到 最 近 的 备用 状态 : 











¢ 》 | 
Subject \wt £] 


HOARE l | 仍然 无 法 匹配 。 于 是 回溯 -测试 -失败 的 循环 会 不 断 发 生 ， 最 终 退 回 开始 的 状 


态 : 
| 
5 ubject’ ANW Sy 
A A 


此 处 仍然 无 法 匹配 成 功 ， 所 以 报 各 整个 表达 式 无 法 匹配 。 


Wl Sur FS 
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CANSER? 
它 水 远 无 法 匹配 任何 字符 。 充 其 量 它 只 能 算是 个 相当 复杂 的 正则 表达 式 ， 但 不 匹配 任 


何 字符 。.*?1 是 .xj 的 忽略 优先 表示 ， 它 限定 的 是 一 个 点 号 ， 所 以 首选 的 分 支 就 是 忽 
略 点 号 ， 把 匹配 点 号 的 状态 保留 下 来 各 用。 但是， 这 个 保存 的 状 入 马上 又 会 被 放弃 ， 
因为 匹配 退出 了 固化 分 组 ， 所 以 真正 近 读 的 只 有 忽略 总 号 的 分 支 。 总 是 被 忽略 的 未 西 ， 
实际 上 相当 于 不 存在 。 








我 们 只 消 看 一 眼 就 能 知道 ， 所 有 的 回溯 都 是 白费 工夫 。 如 果 冒 号 无 法 匹配 最 后 的 字符 ， 那 么 它 当 然 无 
法 匹配 “+| 交还 的 任何 字符 。 

既然 我 们 知道 ， w+| 匹配 结束 之 后 ， 从 任何 备用 状态 开始 测试 都 不 能 得 到 全 局 匹配 ， 就 可 以 命令 正 
则 引擎 不 必 检 查 它们 : 1A 02 >w) | 。 我 们 已 经 全 面 了 解 了 正则 表达 式 的 匹配 过 程 ， 可 以 使 用 固化 分 
组 来 控制 \w+| 的 匹配 ， 放 弃 备 用 的 状态 (因为 我 们 知道 它们 没有 用 ) ， 提 高 效率 。 如 果 存 在 可 以 匹配 的 
文本 ， 那 么 固化 分 组 不 会 有 任何 影响 ， 但 是 如 果 不 存 在 能 够 匹配 的 文本 ， 放 弃 这 些 无 用 的 状态 会 让 正则 引 
擎 更 快 地 得 出 无 法 匹配 的 结论 (先进 的 实现 也 许 能 够 自动 进行 这 样 的 优化 ， 呈 251》。 

我 们 将 在 第 6 章 看 到 (第 269 页 ) ， 固 化 分 组 非常 有 价值 ， 我 怀疑 它 可 能 会 成 为 最 常用 的 技巧 。 


占有 优先 量词 ，? +、 大 +、++ 和 {m，ml}+ 


Possessive Quantifiers, ?+,++,++,and{m,n}+ 

占有 优先 量词 与 匹配 优先 量词 很 相似 ， 只 是 它们 从 来 不 交还 已 经 匹配 的 字符 。 我 们 在 “Aw+| 的 例子 
中 看 到 ， 加 号 在 思 配 结束 之 前 创建 了 很 少 的 备用 状态 ， 而 占有 优先 的 加 号 会 直接 放弃 这 些 状态 (或 者 ， 更 
形象 地 说 ， 并 不 会 创造 这 些 状态 ) 。 

OYE CSA, AT OR GALAN BAL PEL RSE AE ta HEY ARGUE. Cont] N 





\w+) | 的 匹配 结果 完全 相同 ， 只 是 写 起 来 更 加 方便 而 已 ( 注 7) 。 使 用 占有 优先 量词 ， [A O > 
\w+) : | 可 以 写作 Nw: j, | (Wd\d (? >[1-9]? ) ) \d+| 写 做 ' C\\d\d[1-9]? +) A\d+) 。 请 务必 区 
J Q u +| 和 1'(? M+) | 。 前 者 放弃 M 创建 的 备用 状态 ， 因 为 “MI| 不 会 制造 任何 状态 ， 所 以 
这 样 做 没什么 价值 。 而 后 者 放弃 M+ 创造 的 未 使 用 状态 ， 这 样 做 显然 有 意义 
比较 1 (2? >M) +, #1! O >M+) |，! 显然 后 者 就 对 应 于 TM++，， 但 如 果 表 达 式 很 复杂 例如 

OOAD +] ， 从 占有 优先 量词 转换 为 固化 分 组 时 大 家 往往 会 想到 在 括号 中 添加 ‘? > 得 到 | (? 
S\ "IA" DD 关 | 。 这 个 表达 式 或 许 有 机 会 实现 你 的 目的 ， 但 它 显 然 不 等 于 那个 使 用 占有 优先 量词 的 表达 
sk; 它 就 好 像 是 把 M++| 写作 '(? >M) +, 一样。 正确 的 办 法 是 ， 去 掉 表 示 占 有 优先 的 加 号 ， 用 固化 分 
组 把 余下 的 部 分 包括 起 来 :| O > A'D *) je 


环视 中 的 回潮 





The Backtracking of Lookaround 

饮用 四 站 个 条 多 认识 到 PA CLS 2 BE, 59) SEA AN aA NIEA KEER 环视 分 
为 4 种 : A (positive) MRE (negative) ， 顺 序 环视 与 逆序 环视 。 它 们 只 是 简单 地 测试 ， 其 中 表 
达 陈 能 否 在 当前 位 置 匹配 后 面 的 文本 《顺序 环视 ) ， 或 者 前 面 的 文本 《逆序 环视 ) 。 

深入 点 看 ， 在 NFA 的 世界 中 包含 了 备用 状态 和 回 滴 ， 环 视 是 怎么 实现 的 ?环视 结构 中 的 子 表 达 式 有 日 
己 的 世界 。 它 也 会 保存 备用 状态 ， 进 行 必 要 的 回调 。 如 果 人 整个 子 表 达 陈 能 够 成 功 史 配 ， 结 果 如 何 呢 ? 肯定 
型 环视 会 认为 目 己 毗 配 成 功 ; itt 了 定 环视 会 认为 匹配 失败 。 在 任何 一 种 情况 下 ， 因 为 关注 的 只 是 匹配 存在 
a 的 确 存在 匹配 ) ， 此 匹配 竹 试 所 在 的 “世界 >， 包括 在 答 试 中 创造 的 所 有 备用 状 

会 被 放 茎 

如 琳 环视 中 的 子 表达 式 无 法 匹配 ， 结 果 如 何 呢 ? 因为 它 只 应 用 到 这 个 “世界 ”中 ， 所 以 回溯 时 只 能 选择 
当 表 坏 视 结构 中 的 备用 状态 。 也 束 是 说， 如 霖 正则 表达 式 友 现 ， 需 要 进一步 回溯 到 当 表 的 环视 结构 的 起 所 
以 前 ， 它 束 认 为 当前 的 子 表达 式 无 法 匹配 。 对 肯 害 型 环视 来 说 ， 这 束 意 味 看 失败 ， 而 对 于 全 定型 环视 来 
说 ， 这 意味 看 成 功 。 在 任何 一 种 情况 下 ， 都 没有 保留 备用 状态 〈 如 果 有 ， 那 么 子 表达 陈 的 匹配 竹 试 瓯 没有 
结束 ) ， 自 然 也 谈 不 上 放弃 。 

所 以 我 们 知道 ， 只 要 环视 结构 的 匹配 壬 试 结束 ， 它 束 不 会 留 下 任何 备用 状态 。 任 何 备用 状态 和 例子 中 
a Ke, MERMA. RIERA AERIANA ARE? KAE eo ZG 

量词 。 

用 肯定 环视 模拟 固化 分 组 

如 果 流 派 本 映 文 持 固化 分 组 ， 这 么 做 可 能 有 点 多 此 一 举 ， 但 如 果 流 派 不 支持 固化 分 组 ， 这 么 做 束 很 有 
H: 如 条 所 使 用 的 工具 文 持 肯 定 环视 ， 同 时 可 以 在 肯定 环视 中 使 用 捕获 括号 〈 大 多 数 风格 都 文 持 ， 但 也 有 
些 不 支持 ，Tcl ”就 是 如 此 ) ， 就 能 模拟 实现 国 化 分 组 和 占有 优先 量词 。[ (2 >regex) | 可 以 用 和 (3? 
= (regex) ) \1 | 来 模拟 。 举 例 来 说 ， 比 较 1 O S\w+) : | 和 和 ^(? = Awt DM: jo 

环视 中 的 “w+ | 是 匹配 优先 的 ， 它 会 匹配 尽 可 能 多 的 字符 ， 也 就 是 整个 单词 。 因 为 它 在 环视 结构 中 ， 
当 环 视 结束 之 后 ， 备 用 状态 都 会 放弃 (和 国 化 分 组 一 样 )。 但 与 固化 分 组 不 一 样 的 是 ， 虽 然 此 时 确实 捕获 
了 这 个 单词 ， 但 它 不 是 全 局 匹配 的 一 部 分 (这 就 是 环视 的 意义 ) 。 这 里 的 关键 就 是 ， 后 面 的 \1| 捕获 的 就 
posh 吉 构 捕获 的 单词 ， 而 这 当然 会 匹配 成 功 。 在 这 里 使 用 \1| 并 非 多 此 一 举 ， 而 是 为 了 把 匹配 从 这 个 单 

结束 的 位 置 进行 下 去 。 

这 个 技巧 比 真 正 的 固化 分 组 要 慢 一 些 ， 因 为 需要 额外 的 时 间 来 重新 匹配 M 的 文本 。 不 过 ， 因 为 环视 
结构 可 以 放弃 备用 状态 ， 如 果 冒 号 无 法 思 配 ， 它 的 失败 会 来 得 更 快 一 些 。 


多 选 结构 也 十 匹配 优 移 的 吗 














Is Alternation Greedy? 


SaaS ERA TREE, ee PENS e ee EAE RAR ALE. WRIA SS EY 
支 都 能 够 匹配 ， 究 竟 会 选择 哪 一 个 呢 ? 或 者 说 ， 如 EG Pee eee, RAEN seta 
AWE? 如 果 选 择 的 是 匹配 文本 最 长 的 多 选 分 支 ， 有 E OMI Hin UKIR GE 


配 文 本 最 短 的 多 选 分 文 ， 有 人 也 许 会 说 它 是 忽略 优先 的 ? 那么 〈 如 果 只 能 是 一 个 的 话 ) 究竟 是 哪个 ? 

让 我 们 看 看 Perl、PHP、Java、.NET 以 及 其 他 语言 使 用 的 传统 型 NFA 引 擎 。 遇 到 多 选 结构 时 ， 这 种 引擎 
会 按照 从 左 到 右 的 顺序 检查 表达 式 中 的 多 选 分 支 。 拿 正则 表达 式 ^ (Subject|Date) : “| 来 襄 ， 过 到 
'Subject|Date, 时 ， 首 先 尝试 的 是 ”Subject，。 如 果 能 够 匹配 ， 就 转 而 处 理 接 下 来 的 部 分 (也 就 是 后 面 的 
hoj) 。 如 果 无 法 匹配 ， 而 此 时 又 有 其 他 多 选 分 支 〈 就 是 例子 中 的 Date| ) ， 正 则 引擎 会 回溯 来 尝试 
它 。 这 个 例子 同样 说 明 ， 正 则 引擎 会 回调 到 存在 疝 未 答 试 的 多 选 分 文 的 地 方 。 这 个 过 程 会 不 断 重 复 ， 有 到 
完成 全 局 匹配 ， 或 者 所 有 的 分 文 〈 也 残 是 本 例 中 的 所 有 多 选 分 文 ) AR A NKE. 

所 以 ， 对 于 常见 的 传统 型 NEFA 引 擎 ， 用 tourltoltournament | 来 匹配 *three'tournaments，won' 时 ， 会 得 到 
什么 结果 呢 ? 在 壬 试 到 ‘three,toumaments*-won’ 时 ， 在 每 个 位 置 进行 的 思 配 壬 试 都 会 失败 ， 而 且 每 次 党 试 
时 ， 都 会 检查 所 有 的 多 选 分 文 〈 并 且 失 败 ) 。 而 在 这 个 位 置 ， 第 一 个 多 选 分 文 ‘tour | 能 够 匹配 。 因 为 这 个 
多 选 结构 是 正则 表达 式 中 的 最 后 部 分 ， |tour| 匹配 结束 也 就 意味 着 整个 表达 陈 匹 配 完 成 。 其 他 的 多 选 分 文 
MABE TS o 

因此 我 们 知道 ， 多 选 结构 既 不 是 匹配 优先 的 ， 也 不 是 忽略 优先 的 ， 而 是 按 顺 序 排 列 的 ， 至 少 对 传统 型 
NFA 来 说 是 如 此 。 这 比 匹配 优先 的 多 选 结 构 更 有 用 ， 因 为 这 样 我 们 能 够 对 匹配 的 过 程 进行 更 多 的 控制 
正则 表达 去 的 使 用 者 可 以 用 它 下 令 :“ 先 斌 这个， 再 试 那个 ， 最 后 试 另 一 个 ， 直 到 试 出 结果 为 止 ”。 

不 过 ， 也 不 是 所 有 的 流派 都 文 持 按 序 排 列 的 多 选 结 构 。DFA 和 POSIX “NFA 确 实 有 匹配 优先 的 多 选 结 
构 ， 它 们 总 是 逻 配 所 有 多 选 分 文中 能 匹配 最 多 文本 的 那个 (也 就 是 本 例 中 的 [tournament| ) . (Ase, WR 
n PHP、.NET、java.util.regex， 或 者 其 他 使 用 传统 型 NFA 的 工具 ， 多 选 结构 束 是 按 序 排列 



































发 气 有 序 多 选 结 构 的 价值 


Taking Advantage of Ordered Alternation 

回 过 头 来 看 第 167 页 | (\Ad\d[1-9]? ) dx | 的 例子 。 如 果 我 们 明白 ， \Ad\d[1-9]? | 其 实 等 于 \Ad\d, 
或 者 \\d\d[1-9]， ， 我 们 就 可 以 把 整个 表达 式 重 新 写作 ”(\Addl\Add[1-9]) \d*) 。〔 这 并 非 必须 的 改动 ， 
只 是 举例 说 明 ) 。 这 个 表达 式 与 之 前 的 完全 一 样 吗 ? 如 果 多 选 结构 是 匹配 优先 的 ， 那 么 答案 束 是 肯定 的 ， 
但 如 采 多 选 结构 是 有 订 的 ， 两 者 束 完 全 不 一 样 。 

我 们 来 看 多 选 结构 有 序 的 情形 。 首 先 选 择 和 测试 的 是 第 一 个 多 选 分 文 ， 如 果 能 够 还 配 ， 控 制 权 束 转 移 
到 紧 接 的 dx | 那里 。 如 果 还 有 其 他 的 数字 ，“\d* | 能 够 匹配 它们 ， 也 就 是 任何 不 为 零 的 数字 ， 它 们 是 
原来 问题 的 根源 〈 如 果 读 者 还 记得 ， 当 时 的 问题 就 在 于 ， 这 位 数字 我 们 只 希望 在 括号 里 匹配 ， 而 不 通过 括 
号 外 面 的 \dx |， ) 。 所 以 ， 如 果 第 一 个 多 选 分 支 无 法 匹配 ， 第 二 个 多 选 分 支 同 样 无 法 匹配 ， 因 为 二 者 的 开 
头 是 一 样 的 。 即 使 第 一 个 多 选 结构 无 法 匹配 ， 正 则 引 敬 仍然 会 对 第 二 个 多 选 分 文 进行 徒劳 的 尝试 。 

不 过 ， 如 果 交 换 多 选 分 支 的 顺序 ， 变 成 | QAd\d[1-9]N\d\d) dx | ， 它 就 等 价 于 匹配 优先 的 
| QAd\d[1-9]? ) \d> | 。 如 果 第 一 个 多 选 分 支 结 尾 的 “[1-9]| 匹配 失败 ， 第 二 个 多 选 分 支 仍然 有 机 会 成 
功 。 我 们 使 用 的 仍然 是 有 友 排 列 的 多 选 结构 ， 但 是 通过 变换 顺序 ， 实 现 了 也 配 优先 的 功能 。 

第 一 次 拆 分 [1-9]? | 成 两 个 多 选 分 支 时 ， 我 们 把 较 短 的 分 支 放 在 了 前 面 ， 得 到 了 一 个 不 具备 匹配 优先 
功能 的 1? | 。 在 这 个 具体 的 例子 中 ， 这 么 做 没有 意义 ， 因 为 如 果 第 一 个 多 选 分 支 不 能 匹配 ， 第 二 个 肯定 也 
无 法 匹配 。 我 经 党 看 到 这 样 没有 意义 的 多 选 结构 ， 对 传统 型 NFA 来 说 ， 这 肯定 不 对 。 我 曾 看 到 有 一 本 书 以 
la C (ab) xb) | 为 例 讲解 传统 型 NFA ”正则 表达 式 的 括号 。 这 个 例子 显然 没有 意义 ， 因 为 第 一 个 多 选 
DL! (ab) * ) 永远 也 不 会 匹配 失败 ， 所 以 后 面 的 其 他 多 选 分 支 毫 无 意义 。 你 可 以 继续 添加 : 
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a*((ab) *|b*|.* |partridge*in*a*pear*tree| [a-z]) 
RR 


这 个 正则 表达 陈 的 意义 都 不 会 有 丝 坚 的 改变 。 要 记 住 的 是 ， 如 末 多 选 分 文 定 有 序 的， 而 能 够 匹配 同样 
文本 的 多 选 分 文 义 不 只 一 个 ， 惑 要 小 心安 排 多 选 分 文 的 驳 后 顺序 。 
有 序 多 选 结 构 的 陷阱 
多 选 分 支 容 许 使 用 者 控制 期 望 的 匹配 ， 因 此 极为 便利 ， 但 也 会 给 及 明 就 里 的 人 造成 麻烦 。 如 果 需 
朋友 多 选 分 文 容许 使 用 者 控制 期 前 的 匹 玫 li I iS BD K ATT 














WWW.HAUXIGC.COM 


要 匹配 "Jan 31 之 类 的 日 期 ， 我 们 需要 的 就 不 是 简单 的 Jan.[0123][0-9]| ， 因 为 这 样 的 表达 式 能 够 匹 
配 ‘Jan:00? 和 ‘Jan*39’ 这 样 的 日 期 ， 却 无 法 匹配 Jan*7’。 

一 种 办 法 是 把 日 期 部 分 拆 开 。 用 “0? [1-9]| 匹配 可 能 以 0 开头 的 前 九天 的 日 期 。 用 “ [12][0-9]| 处理 十 
号 到 二 十 九 号 ， 用 “3[01]| 处 理 最 后 两 天 。 把 上 面 这 些 连 起 来 ， 就 是 Jan. (0? [1-9]|[12][0-9]|3[01]) | 。 

如 果 用 这 个 表达 式 来 匹配 ‘Jan 31 is Dad's birthday”， 结 果 如 何 呢 ?我 们 希望 获得 的 当然 是 ‘Jan 31”， 但 是 
有 序 多 选 分 支 只 会 捕获 ‘Jan 3'。 奇 怪 吗 ? 在 匹配 第 一 个 多 选 分 支 0? [1-9]| 时 ， 前 面 的 10? | 无 法 匹配 ， 
但 是 这 个 多 选 分 支 仍然 能 够 匹配 成 功 ， 因 为 “[1-9]| 能 够 匹配 53:。 因 为 此 多 选 分 支 位 于 正则 表达 式 的 末 
尾 ， 所 以 匹配 到 此 完成 。 

如 果 我 们 重新 安排 多 选 结构 的 顺序 环视 ， 把 能 够 匹配 的 数字 最 短 的 放 到 最 后 ， 这 个 问题 就 解决 了 : 
Jan.〈[12][0-9]l3[01]I0? [1-9]) ，。 

另 一 种 办 法 是 使 用 Jan (31|[123]0|[012]? [1-9]) ，。 但 这 也 要 求 我 们 仔细 地 安排 多 选 分 支 的 顺序 避免 
问题 。 还 有 一 种 办 法 是 “Jan: (0[1-9]I[12][0-9]? |3[01]? |[4-9]) |，， 这 样 不 论 顺 序 环视 如 何 都 能 获得 正确 结 
果 。 比 较 和 分 析 这 3 个 不 同 的 表达 式 ， 会 有 很 多 发 现 〈 我 会 给 读者 一 些 时 间 来 想 这 个 问题 ， 尽 管 下 一 页 的 
补充 内 容 会 有 所 帮助 ) 。 


拆 分 日 期 的 几 种 办 法 


下 面 几 种 办 法 都 可 以 用 来 解决 第 176 页 的 日 期 匹配 问题 .正则 表达 式 中 的 元 素 能 
匹配 日 历 中 对 应 元 素 的 部 分 。 
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NFA、DFA 和 POSIX 
NFA,DFA,and POSIX 
好 左 最 长 规则 


"The Longest-Leftmost" 

之 前 我 们 说 过 : 如 果 传 动 疙 置 在 文本 的 菜 个 特定 位 置 局 动 DFA 引 擎 ， 而 在 此 位 置 义 有 一 个 或 多 个 匹配 
的 可 能 ，DFA ” 束 会 选择 这 些 可 能 中 最 长 的 。 因 为 在 所 有 同样 从 最 左边 开始 的 可 能 的 匹配 文本 中 它 是 最 长 
的 ， 所 以 叫 它 “最 左 最 长 的 Congest-leftmost) ” LE. 

绝对 最 长 

这 里 说 的 “最 长 "不 限于 多 选 结构 。 看 看 NFA 如 何 用 ‘one (self) ? (selfsufficient) ? | 来 匹配 字符 串 
oneselfsufficient。NFA ”首先 匹配 one| ， 然 后 是 匹配 优先 的 ' (self) ? |, FAR | (selfsufficient) ? | 来 
L 配 sufficient。 它 显然 无 法 匹配 ， 但 整个 表达 式 并 不 会 因此 匹配 失败 ， 因 为 这 个 元 系 不 是 必须 匹配 的 。 所 


oneselfsufficient 


以 ， 传 统 型 NFA 返 回 GC ， 放 弃 没 有 尝试 的 状态 (POSIX NFA 的 情况 与 此 不 同 ， 我 
们 稍 后 将 会 看 到 ) 。 
oneselfsufficient 


与 此 相反 ，DFA 会 返回 更 长 的 结果 : 一 一 一 一 一 一 一 一 一 。 如 果 最 开始 的 1 (self) ?| 因为 某 
些 原因 无 法 匹配 ，NFA 也 会 返回 跟 DFA 一 样 的 结果 ， 因 为 | (self) ? | 无 法 匹配 ， 
| (selfsufficient) ? | 区 能 成 功 匹 配 。 传 统 型 NFA 不 会 这 样 ， 但 是 DFA 则 会 这 样 ， 因 为 会 选择 最 长 的 可 能 
匹配 。DEFA 同时 记录 多 个 匹配 ， 在 任何 时 候 都 清楚 所 有 的 匹配 可 能 ， 所 以 它 能 做 到 这 一 氮 。 

我 选 这 个 简单 的 例子 是 因为 它 很 容易 理解 ， 但 是 我 希望 恋 者 能 够 明白 ， 这 个 问题 在 现实 中 很 重要 。 举 
例 来 说 ， 如 果 希 望 匹配 连续 多 行文 本 ， 常 见 的 情况 是 ， 一 个 逻辑 行 (logical — line) 可 以 分 为 许多 现实 的 
行 ， 每 一 行 以 反 斜 线 结尾 ， 例 如 : 

SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c \ 
missing.c msg.c node.c re.c version.c 

读者 可 能 希望 用 Aw+=. 类 | 来 匹配 这 种 “var=value” 的 数据 ， 但 是 正则 表达 式 无 法 识别 连续 的 行 〈 在 这 
里 我 们 假设 点 号 无 法 匹配 换行 符 ) 。 为 了 匹配 多 行 ， 读 者 可 能 需要 在 表达 式 最 后 添加 1 Ox) 大 | ， 得 

E as & x) * 
到 puree WIA, ORME EA a ae ae aT AB EVE Bc, RREN ARR RE. KA 
起 来 没 错 ， 但 在 传统 型 NFA 中 行 不 通 。 Sok) 到 达 行 尾 的 时 候 ， 已 经 匹配 了 反 斜 线 ， 而 表达 式 中 后 面 的 部 
分 不 会 强迫 进行 回调 C152) 。 但 是 ，DFA 能 够 匹配 更 长 的 多 行文 本 ， 因 为 它 确实 是 最 长 的 。 

如 果 能 够 使 用 忽略 优先 的 量词 ， 也 许可 以 考虑 用 它们 来 解决 问题 ， 例 如 Aw? Ank? ) 

炎 | 。 这 样 点 号 每 次 实际 匹配 任何 字符 之 前 ， 都 需要 测试 转 义 的 换行 符 部 分 ， 这 样 \\| 就 能 够 匹配 换行 符 
之 前 的 反 斜 线 。 不 过 这 也 行 不 通 。 如 采 忽 略 优先 量词 匹配 茶 些 可 选 的 部 分 ， 必 然 是 在 全 局 匹配 必须 的 情况 
下 发 生 。 但 是 在 本 例 中 ， |=) 后 面 的 所 有 部 分 都 不 是 必须 匹配 的 ， 所 以 没有 东西 会 强迫 忽略 优先 量词 匹配 
任何 字符 。 忽 略 优先 的 正则 表达 式 只 能 匹配 “SRC='， 这 显然 不 是 我 们 期 望 的 结 采 。 

这 个 问题 还 有 其 他 的 解决 共 法 ， 我 们 会 在 下 一 重 继续 这 个 问题 C186) 。 


POSIX 和 最 左 最 长 规则 














POSIX and the Longest-Leftmost Rule 
POSIX 标 准 规定 ， 如 果 在 字符 串 的 菏 个 位 置 存 在 多 个 可 能 的 匹配 ， 应 当 人 返回 的 是 最 长 的 匹配 。 
POSIX 标 准 文 档 中 使 用 了 “最 左边 开始 的 最 长 匹配 Congest of the leftmost) ”。 它 并 没有 规定 必须 使 用 
DFA， 那 么 ， 如 栗 布 望 使 用 NFA 来 实践 POSIX， 程 序 员 应 该 如 何 做 ? WOR RAs AUT POSIX NFA, HAD 
oneselfsufficient 


Gps sey eee 4 连续 行 ， 虽 然 这 个 结果 是 < 天 性 2 的 。 
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传统 型 NFA 引 擎 会 在 第 一 次 找到 匹配 时 停 下 来 ， 但 是 如 条 让 它 继续 符 试 其 他 分 文 〈 状 态 ) 会 怎样 呢 ? 
每 次 匹配 到 表达 式 的 末尾 时 ， 它 都 会 获得 夯 一 个 可 能 的 匹配 结束 。 如 果 所 有 的 分 文 都 穷 斥 了， 就 能 从 中 选 
择 最 长 的 匹配 结果 。 这 样 ， 我 们 就 得 到 了 一 台 POSIX NFA。 在 上 面 的 例子 中 ，NFA 匹配 (self) ? | 时 保 


j 
one (self)? selfsuf- 
存 了 一 个 备用 状态 : mb 


NFA 在 neselfssufficient > 请 售 目 匹配 ， 
而 POSIX NFA 仍 然 会 继续 检查 余下 的 所 有 状态 ， 最 终 得 到 那个 更 长 的 结果 (其 实 是 最 长 的 ) 


oneselfsufficient 
第 7 章 有 一 个 例子 ， 可 以 让 Perl 模 拟 POSIX 的 做 法 ， 返 回 最 长 的 匹配 字符 Ce 225) 。 
速度 和 效率 





[ 5 ml 
one selfsufficient) 


ficient) ? | 在 。 传 统 型 





Speed and Efficiency 

如 果 传 统 型 NEFA 的 效率 是 我 们 应 当 关 注 的 问题 〈 对 提供 回溯 的 传统 型 NFA 来 说 ， 这 确实 是 一 个 问 
题 ) ， 那 么 POSIX NFA 的 效率 就 更 值得 关注 ， 因 为 它 需 要 进行 更 多 的 回 湖 。POSIX NFA 需 要 尝试 正则 表达 
式 的 所 有 变 体 〈 译 注 4) . BOM AVR, IEW ARS SN th, DOA R8 RIE 

DFA 的 效率 

文本 主导 的 DFA 巧 妙 地 避免 了 回 济 造 成 的 效率 问题 。DFA 同 时 记录 了 所 有 可 能 的 匹配 ， 这 样 来 提高 速 
度 。 它 是 如 何 做 到 这 一 切 的 呢 ? 

DFA 引擎 需要 更 多 的 时 间 和 内 存 ， 它 第 一 次 遇见 正则 表达 式 时 ， 在 做 出 任何 党 试 之 前 会 用 比 NFA 详 细 
得 多 的 (也 是 截然 不 同 的 ) 办 法 来 分 析 这 个 正则 表达 式 。 开 始 尝 试 匹 配 的 时 候 ， 它 已 经 内 建 了 一 张 路 线 图 
Cmap) ， 摘 述 * 遇 到 这 个 和 这 个 字符 ， 就 该 选择 这 个 和 那个 可 能 的 匹配 ”。 字 人 符 串 中 的 每 个 字符 都 会 按照 
这 张 路 线 图 来 匹配 。 

有 时 候 ， 构 造 这 张 路 线 图 可 能 需要 相当 的 时 间 和 内 存 ， 不 过 只 要 建立 了 针对 特定 正则 表达 式 的 路 线 
图 ， 结 果 束 可 以 应 用 到 任意 长 度 的 文本 。 这 就 好 像 为 你 的 电动 车 充电 一 样 。 首 先 ， 你 得 把 车 停 到 车 库 里 
面 ， 插 上 电源 等 竺 一 段 时 间 ， 但 只 要 发 动 了 汽车 ， 清 洁 的 能 源 束 会 源源 而 来 。 








[| 日 日 Linux[| || www.linuxide.com [] [] 


NFA 理论 与 现实 


NFA (译注 5) 真正 的 数学 和 计算 学 意义 是 不 同 于 通常 说 的 “NFA 引 营 ”的 。 在 理论 
+, NFA 和 DFA 引擎 应 该 匹配 完全 一 样 的 文本 , 提供 完全 一 样 的 功能 。 但 是 在 实际 中 ， 
因为 人 们 需要 更 强 的 功能 ， 更 具 表 达能 力 的 正则 表达 式 ， 它 的 语意 发 生 了 变化 。 肥 向 
引用 就 是 一 例 ，。 

DFA 引擎 的 设计 方案 就 排除 取向 引用 , 但 是 对 于 真正 (数学 意义 上 的 ) 的 NFA 引 敬 
来 说 ， 提 供 反 向 引用 的 支持 只 需要 很 小 的 改动 。 这 样 我 们 就 得 到 了 一 个 功能 更 强大 的 
工具 ， 但 它 绝 对 是 非 正 则 (nonregular) 的 〈 数 学 意义 上 的 ) 。 这 是 什么 意思 呢 ? AF, 
你 不 应 该 继续 叫 它 “NFA ， 而 是 “不 正则 表达 式 (nonregular expressions) ,因为 这 个 
名 词 才能 描述 (在 数学 意义 上 ) 新 的 情形 。 但 是 实际 没 人 这 么 做 ， 所 以 这 个 名 字 就 这 
样 流传 下 米 ， 虽 然 实 现 万 式 郁 不 再 是 〈 数 学 意义 上 的 ) NFA, 

这 对 用 户 有 什么 意义 ?显然 没有 什么 意义 。 作 为 用 户 ， 你 不 需要 关心 它 是 正则 还 是 非 
正则 ， 而 只 需要 知道 它 能 为 你 做 什么 (也 就 是 本 和 草 的 内 容 )。 

对 那些 布 望 了 解 更 多 的 正则 表达 式 的 理论 的 人 ， 经 典 的 计算 机 科学 教学 文本 是 ，Aho、 
Sethi, Ullman 的 Compilers—Principles, Techniques, and Tools (Addison-Wesley, 1986) 

的 第 3 章 ， 通 常 说 的 “恐龙 书 ”， 因 为 它 的 封面 。 更 确切 地 说 ， 这 是 一 条 “ 红 龙 ",，“ 绿 
E” WARE ATE, Aho 和 Ullman 的 Principles of Compiler Design. 


小 结 : NFA 与 DFA 的 比较 


Summary:NFA and DFA in Comparison 

NFA 5DFA#-A Fil i 

DFASNFA: 在 预 编译 阶段 (pre-use compile) 的 区 别 

在 使 用 正则 表达 式 搜 索 之 前 ， 两 种 引 苟 都 会 编译 表达 式 ， 得 到 一 僚 内 化 形式 ， 适 应 各 目的 匹配 算法 。 
nae oe 需要 的 内 存 也 更 少 一 些 。 传 统 型 NFA 和 POSIX “NEFA 之 间 并 没有 实质 的 差 
别 。 

DFA 与 NFA: 匹配 速度 的 差别 

对 于 “ 正 间 ?情况 下 的 简单 文本 匹配 测试 ， 两 种 引擎 的 速度 甜 不 多 。 一 般 来 说 ，DEFA 的 速度 与 正则 表达 
式 无 关 ， 而 NFA 中 两 者 直接 相关 。 

传统 的 NFA 在 报告 无 法 还 配 以 前 ， 必 须 笠 试 正 则 表达 式 的 所 有 变 体 。 这 就 是 为 什么 我 要 用 整 章 (第 6 
T) 来 论述 提高 NFA 表 达 陈 匹配 速度 的 技巧 。 我 们 将 会 看 到 ， 有 时 候 一 个 NFA 了 永远 无 法 结束 匹配 。 传 统 型 
NEFA 如 果 能 找到 一 个 匹配 ， 青 定 会 停止 匹配 。 

相反 ，POSIX NFA 必 须 和 尝试 正则 表达 式 的 所 有 人 变 体 ， 确 保 获 得 最 长 的 罗 配 文本 ， 所 以 如 果 岂 配 失败 ， 
已 所 伦 的 时 间 与 传统 型 NFA 村 (有 可 能 很 长 ) 。 因 此 ， 对 POSIX ”NFA 来 说 ， 表 达 式 的 效率 问题 更 为 重 
Zo 





FEF ME RUFAI VAC Cte Wt as BES Dal > RAG DLC AR EY TA]. II AA 
到 ， 优 化 引擎 不 会 在 字符 串 开 头 之 外 的 任何 地 方 尝试 带 A 锚 点 的 表达 式 ， 我 们 会 在 第 6 章 看 到 更 多 的 优化 
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DEFA 不 需要 做 太 多 的 优化 ， 因 为 它 的 匹配 速度 很 快 ， 不 过 了 最 重要 的 是 ，DFA 在 预 编 译 阶段 所 作 的 工作 
提供 的 优化 效果 ， 要 好 于 大 多 数 NFA 引 擎 复杂 的 优化 措施 。 

现代 DFA 引 擎 经 常会 尝试 在 昂 配 需要 时 再 进行 预 编译 ， 减 少 所 需 的 时 间 和 内 存 。 因 为 应 用 的 文本 各 
异 ， 通 常情 况 下 大 部 分 的 预 编 译 都 是 白费 工夫 。 因 此 ， 如 果 在 匹配 过 程 确实 需要 的 情况 下 再 进行 编译 ， 有 
时 候 能 节省 相当 的 时 间 和 内 存 〈 技 术 术 语 就 是 “延迟 求 值 (lazy evaluation) ”) 。 这 样 ， 正 则 表达 式 、 待 罗 
配 的 文本 和 [匹配 速度 之 间 就 建立 了 某 种 联系 。 

DFA 与 NFA: 匹配 结果 的 差别 

DFA (或 者 POSIX NFA) 返回 最 左边 的 最 长 的 匹配 文本 。 传 统 型 NFA 可 能 返回 同样 的 结果 ， 当 然 也 可 
能 是 别 的 文本 。 针 对 茶 一 型 具体 的 引擎 ， 同 样 的 正则 表达 式 ， 同 样 的 文本 ， 总 是 得 到 同样 的 结果 ， 在 这 个 
意义 上 来 说 ， 它 不 是 “随机 ”的 ， 但 是 其 他 NFA 引 擎 可 能 返回 不 一 样 的 结果 。 事 实 上 ， 我 见 过 的 所 有 传统 型 
NEFA 返 回 的 结果 都 是 一 样 的 ， 但 并 没有 任何 标准 来 硬性 规定 。 

DFA 与 NFA: 能 力 的 差异 

NEFA 引 擎 能 提供 一 些 DFA 不 支持 的 功能 ， 例 如 : 

e 捕 获 由 括 亏 内 的 子 表达 式 匹 配 的 文本 。 相 关 的 功能 是 反 同 引用 和 后 匹配 信息 Cafter-match 
information) ， 它 们 描述 匹配 的 文本 中 每 个 括号 内 的 子 表达 陈 所 匹配 文本 的 位 置 。 

e 环 视 ， 以 及 其 他 复杂 的 零 长 度 确认 “〈 注 8) 02133) 。 

e 非 匹配 优先 的 量词 ， 以 及 有 序 的 多 选 结构 。DEFA 很 容易 就 能 支持 选择 最 短 的 匹配 文本 OR BAA 
oe 这 个 选项 似乎 从 未 辐 用 户 提 供 过 ) ， 但 是 它 无 法 实现 我 们 讨论 过 的 局 部 的 忽略 优先 性 和 有 序 的 多 

e 占有 优先 量词 (142) 和 固化 分 组 C139) 。 














RA DFA 的 速度 和 NFA 的 功能 : 正则 表达 式 的 终极 境界 


我 已 经 多 次 说 过 ，DFA 不 能 支持 捕获 括号 和 反 向 引用 。 这 无 疑 是 对 的 ,但 这 并 不 是 说 ， 
我 们 不 能 组 合 不 同 的 技术 ， 以 达到 正则 表达 式 的 终极 境界 。180 页 的 补充 内 容 描述 了 
NFA 为 了 追求 更 强大 的 功能 , 如 何 脱离 了 纯 理 论 的 道路 和 限制 , DFA 的 情况 也 是 如 此 。 
x A HEH ARG], DFA 进行 这 种 突破 更 加 困难 ， 但 并 非 不 可 能 。 


GNU grep 采取 了 一 种 简单 但 有 效 的 策略 。 它 尽 可 能 多 地 使 用 DFA, 在 需要 反 向 引用 的 
Itik, F h42] NFA, GNU awk 的 办 法 也 差不多 一 一 在 进行 “是 否 匹 配 ” 的 检查 时 ， 


它 采 用 GNU grep 的 DFA 引擎 ， 如 果 需 要 知道 具体 的 匹配 文本 的 内 容 ， 就 采用 不 同 的 
引擎 。 这 里 的 “不 同 的 引 掌 ”就 是 NFA,， 利用 自己 的 gensub 函数 ，GNU awk 能 够 很 
方便 地 提供 捕获 括号 。 

Tel 的 正则 引 掌 由 Henry Spencer (你 或 许 记 得 ， 这 个 人 在 正则 表达 式 的 早期 发 展 和 流 
行 中 扮演 了 重要 的 角色 ) 开发 ， 它 也 是 混合 型 的 。Tcl 引擎 有 时 候 像 NFA 一 一 它 支持 
环视 、 捕 获 括 号 、 肥 向 引用 和 和 急 略 优先 量词 。 但 是 ， 它 也 确实 能 提供 POSIX 的 最 左 最 
长 匹配 ( 呈 177)， 但 没有 我 们 将 在 第 6 章 看 到 的 NFA 的 问题 。 这 点 确实 很 棒 。 





DFA 与 NFA: 实现 难度 的 和 差异 

尽管 存在 限制 ， 但 简单 的 DEFA 和 NEA 引 人 擎 都 很 容易 理解 和 实现 。 对 效率 〈 包 括 时 间 和 空间 效率 ) 和 增 
强 性 能 的 退 求 ， 令 实现 越 来 越 复 杂 。 

用 代码 长 度 来 衡量 的 话 ， 支 持 NFA 正 则 表达 式 的 ed Version 7 〈1979 年 1 月 发 布 ) 只 有 不 到 350 行 的 C 代 
人 码 ( 所 以 ， 整 个 grep 只 有 区 区 478 行 代码 ) 。Henry | S$penchy1986G AEP HEIN Version. Bata &: coN T 


900 行 C 代 码 ，1992 年 Tom Lord 的 POSIX NFA package rx (#£GNU sed 和 其 他 工具 采用 ) 长 达 9 70047. 

WAS REGDFEAFINFAR (i, GNU egrep Version 2.4.2 使 用 了 两 个 功能 完整 的 引擎 CERZSB 900 行 代 
码 ) ，Tal 的 DFA/NFA 混 合 引 擎 〈 请 看 上 一 页 的 补充 内 容 ) 更 是 长 达 9 500 行 。 

采 些 实现 很 测 单 ， 但 这 并 不 是 说 它们 文 持 的 功能 有 限 。 我 曾经 想 要 用 Pascal 的 正则 表达 式 来 处 理 茶 些 
文本 。 从 毕业 以 后 我 束 没 用 过 Pascal 了 了， 但 是 写 个 简单 的 NFA 引 获 并 不 需要 太 多 工夫 。 它 并 不 奶 求 花 明 ， 
也 不 奶 求 速度 ， 但 是 提供 了 相对 全 面 的 功能 ， 非 党 实用 。 
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mae 

Summary 

RREA mE TAS EN PAS, KRIA ER. ED, HEIR UNIS AB BR. Rie 
TENE A RE, Fe SIN A) A IESE Te. ERA EE ee fy ETE A Be Oe ERA EE. OE 
TAN fa] FRE, TN NE Val AC Te SBE CANS, ANBAR Se ite S REWE) 。 本 
ee 
其 他 的 内 容 。 

实现 正则 表达 式 匹 配 引 擎 有 两 种 币 见 的 技术 ， 一 种 是 “表达 式 主导 的 NFA”( 嗓 153) ， 男 一 种 是 “文本 
主导 的 DFA”( 吧 155) 。 它 们 的 全 称 见 第 156 页 。 

这 两 种 技术 ， 结 合 POSIX 标 准 ， 可 以 按照 实用 标准 划分 3 种 正则 引擎 : 

e 传 统 型 NFA【〔 汽 油 驱 动 ， 功 能 强大 ) 。 

ePOSIX NFA 汽油 驱动 ， 符 合 标 准 〉。 

eDFA (不 一 定 符合 POSIX) (电力 驱动 ， 运 转 稳定 )。 

为 了 对 手头 的 工具 有 个 大 致 的 了 解 ， 你 需要 知道 它 采 用 的 是 什么 引擎， 以 对 正则 表达 式 做 相应 的 调 
校 。 最 常见 的 引擎 就 是 传统 型 NFA， 其 次 是 DFA。 表 4-1 (145) 列 出 了 若干 常用 工具 及 它们 使 用 的 引擎 
类 型 ，“ 测 试 引擎 的 类 型 ”(146) 给 出 了 测试 引擎 类 型 的 方法 。 

对 于 任何 引擎 来 说 ， 都 有 一 条 通用 的 规则 : 开始 位 置 靠 先 的 匹配 文本 优先 于 开始 位 置 靠 后 的 匹配 文 
本 。 因 为 “传动 机 构 ” 会 从 前 往 后 在 文本 的 各 个 位 置 展开 尝 试 C148) 。 

对 于 从 某 个 位 置 开始 的 匹配 : 

文本 主导 的 DFA3 引 擎 : 

寻找 可 能 的 最 长 的 匹配 文本 。 不 再 介绍 (177) 。 稳 定 、 速 度 快 (二 179) ， 讲 解 起 来 很 麻烦 。 

表达 式 主导 的 NEA 引 擎 

匹配 过 程 中 可 能 需要 “反复 尝试 (work through) ”。NEA 匹 配 的 灵魂 是 回溯 C157, 162) 。 控 制 匹 配 
过 程 的 元 字符 : 标准 量词 〈 星 号 等 等 ) 是 匹配 优先 的 〈 嗓 151) ， 其 他 量词 是 忽略 优先 或 者 占有 优先 的 《二 
169) 。 在 传统 型 NFA 中 ， 多 选 结 构 是 有 序 排列 的 C2174) ， 在 POSIX NFA 中 是 匹配 优先 的 。 

POSIX NFA 必须 找到 最 长 的 匹配 文本 。 人 但是， 匹配 并 不 难 理解 ， 只 顷 考 虑 效率 《第 6 草 的 问题 ) 。 
JG St NEA FERRE eR ES TEU STE PSPS er Ay EH A ERA E TE RA el) A 
“Eo 


Wh 























理解 本 章 的 概念 和 练习 是 书写 正确 而 高 效 的 正则 表达 式 的 基础 ， 这 也 是 接 下 来 两 划 的 主题 。 
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第 5 革 正则 表达 式 实用 技巧 


Practical Regex Techniques 

现在 我 们 已 经 掌握 了 编写 正则 表达 式 所 需 的 基本 知识 ， 我 希望 在 更 复杂 的 环境 中 应 用 这 些 知 识 来 处 理 
更 复杂 的 问题 。 每 个 正则 表达 陈 都 必须 在 下 面 两 个 方面 求 得 平衡 : 准确 匹配 期 望 匹 配 的 内 容 ， 忽 略 不 期 户 
匹配 的 字符 。 我 们 已 经 看 过 许多 例子 都 次 明 ， 如 条 应 用 得 当 ， 匹 配 优 抑 非常 有 用 ， 但 如 采 不 够 小 心 ， 也 可 
能 市 来 肪 烦 ， 在 本 章 我 们 还 将 看 到 许多 例子 。 

NFA 引擎 还 需要 平衡 男 外 一 个 因素 : 效率 ， 这 也 是 下 一 草 的 主题 。 设 计 灶 糙 的 正则 表达 陈 一 一 即使 可 
以 认为 没 犯错 误 一 一 也 足以 让 引擎 肉 痪 。 

本 和 章 出 现 的 主要 有 是 各 种 实例 ， 我 会 市 领 读者 循 看 我 的 思路 去 解决 各 种 问题 。 示 些 例子 或 许 对 读者 并 没 
有 现实 价值 ， 但 我 仍然 推荐 读者 阅读 这 些 实例 。 

例如 ， 即 使 你 的 工作 不 涉及 HTML， 我 仍 推荐 你 从 处 理 HTML 的 实例 中 吸取 知识 。 原 因 在 于 ， 编 写 巧 
妙 的 正则 表达 式 不 仅仅 是 一 种 手艺 (skill) 一 一 而 且 还 是 一 种 艺术 Cart) 。 它 的 教授 和 学 习 ， 不 是 依 徘 罗 
列 规则 ， 而 是 依 菲 经 验 ， 所 以 ， 我 用 这 些 例子 告诉 读者 ， 目 己 在 过 去 的 右 干 年 从 经 验 中 获得 的 深刻 局 示 。 

当然 ， 读 者 仍然 需要 目 己 掌握 这 些 知 识 ， 但 古 研 究 本 草 的 例子 古 个 好 的 起 点 。 
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正则 表达 式 的 平衡 法 则 


Regex Balancing Act 

好 的 正则 表达 式 必须 在 这 些 方面 求 得 平衡 : 

e 只 匹配 期 望 的 文本 ， 排 除 不 期 望 的 文本 。 

e 必 须 易于 控制 和 理解 。 

e 如 末 使 用 NFA 引 擎 ， 必 须 体 证 效率 《如 采 能 够 匹配 ， 必 须 很 快 地 返回 匹配 结 末 ， 如 末 不 能 匹配 ， 应 
该 在 尽 可 能 短 的 时 间 内 报告 匹配 失败 》。 

这 些 方面 第 第 是 与 具体 文本 相关 的 。 如 果 我 只 使 用 命令 行 ， 只 需要 快速 地 grep 余 些 东 西 ， 可 能 不 会 过 
分 关心 匹配 的 准确 性 ， 通 第 也 不 会 伦 太 多 精力 来 调 校 。 我 不 在 乎 多 花 点 时 间 来 手工 排 租 ， 因 为 我 能 够 迅速 
地 在 输出 中 找到 目 己 需要 的 内 容 。 但是， 如 果 人 处 理 重 要 的 程序 ， 束 需要 化 费 时 间 精 力 来 你 证 正确 性 : 如 采 
需要 ， 正 则 表达 式 也 可 能 很 复 洒 。 这 些 因 系 痢 需要 权衡 。 

即使 使 用 同样 的 程序 ， 效 率 也 是 与 其 体 文本 相关 的 。 如 果 是 NFA， 用 人- (display|geometry|cemap| 
....quick24|random|raw) $; ZAI TRAN IEW ZA SUK tr a ST SB OE RIK, MAZEN, 
(AMR ERA Pa OAT Bae CARE A xe TERETE SR IN eae 47 ae), BY Se Pr ries PNY TA] EEIE A HY 12100 
ace 候 效率 并 不 是 问题 。 但 是 ， 如 采 要 逐 行 检 奏 很 大 的 文件 ， 低 效率 的 程序 运行 起 来 会 
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右 干 商 单 的 例子 
A Few Short Examples 
匹配 连续 行 〈 续 前 ) 


Continuing with Continuation Lines 

继续 前 一 章 中 匹配 连续 行 的 例子 (S178) ， 我 们 发 现 〈 在 传统 型 NFA 中 使 用 Awt. Ain. x) 大 
并 不 能 匹配 下 面 的 两 行文 本 : 

SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c\ 
missing.c msg.c node.c re.c version.c 
[ x\ x 

问题 在 于 ， 第 一 个 和. EURAKAZ Bore ON) “pen gere TIA 
了 。 所 以 ， 本 章 出 现 的 第 一 条 经 验 殴 是 : 如 果 不 圾 要 点 号 罗 配 反 斜 线 ， 束 应 该 在 正则 表达 式 中 做 这 样 的 规 
定 。 我 们 可 以 把 每 个 点 号 蔡 换 成 [AnN| (请 注意 ，wn 包 含 在 排除 性 字符 组 中 。 你 应 该 记得 ， 原 来 的 正则 
表达 式 有 的 假设 之 一 束 是 ， 扣 写 人 不 会 匹配 换行 行 ， 我 们 也 不 希望 它 的 伙 代 品 能 够 匹配 换行 从 号 119 页 〉。 

于 是 ， 我 们 得 到 |: 














\wt=[4\n\\]* (\AAn[4\n\\]*) *: 
es , 


它 确 实 能 够 匹配 连续 行 ， 但 因此 也 产生 了 一 个 新 的 问题 : 这 样 反 和 斜 线 就 不 能 出 现在 一 行 的 非 结尾 位 
置 。 如 果 需 要 匹配 的 文本 中 包含 其 他 的 反 斜 线 ， 这 个 正则 表达 式 就 会 出 问题 。 现 在 我 们 假设 它 会 包含 ， 所 
以 需要 继续 改进 正则 表达 式 。 

迄今 为 止 ， 我 们 的 思路 都 是 ，“ 匹 配 一 行 ， 如 果 还 有 连续 行 ， 就 继续 匹配 *"。 现 在 换 另 一 种 思路 ， 这 种 
思路 我 觉得 通常 都 会 奏效 :集中 关注 在 特定 时 刻 真正 容许 匹配 的 字符 。 在 匹配 一 行文 本 时 ， 我 们 期 望 匹配 
的 要 么 是 普通 〈 除 反 斜 线 和 换行 符 之 外 ) 字符 ， 要 么 是 反 斜 线 与 其 他 任何 字符 的 结合 体 。 在 点 号 通 配 模式 
中 ， ITN 能 匹配 反 斜 线 加 换行 符 的 结合 体 。 

所 以 ， 正 则 表达 式 就 变 成 了 TAw+= (AN) x | ， 在 点 号 通 配 模式 下 。 因 为 开头 是 I^， ， 如 果 需 
要 ， 可 能 得 使 用 增强 的 文本 行 错 点 匹配 模式 Ce112) 。 

但 是 ， 这 个 答案 仍然 不 够 完美 一 我 们 会 在 下 一 章 讲解 效率 问题 时 再 次 看 到 它 (270) 。 


DU HEIP Hh hi 











Matching an IP Address 

来 看 个 复杂 点 的 例子 ， 匹 配 一 个 IP (nternet ”Protocol， 因 特 网 协议 ) 地 址 : 用 点 号 分 开 的 四 个 数 ， 例 
如 1.2.3.4。 通 常情 况 下 ， 每 个 数 都 有 三 位 ， 例 如 001.002.003.004。 你 可 能 会 想到 用 | [0-9] * \.[0-9] * \.[0-9] * 
\.[0-9] > | 从 文本 中 提取 一 个 IP 地 址 ， 但 是 这 个 表达 式 显 然 不 够 精致 ， 它 甚至 会 思 配 





and then sys? 5) 仔细 看 看 就 会 发 现 ， 这 个 表达 式 甚至 不 需要 匹配 任何 数字 一 一 它 只 需要 三 个 点 
写 ( 当 然 也 可 能 包括 其 间 的 数字 )。 

为 解决 这 个 问题 ， 我 们 首先 把 星 号 改 成 加 号 ， 因 为 我 们 知道 ， 每 一 段 必 有 顷 有 至 少 一 位 数字 。 为 确保 整 
个 字符 串 的 内 容 就 是 一 个 卫 地 址 ， 我 们 可 以 在 首尾 加 上 “人 ...$| ， 于 是 我 们 得 到 : 

| ^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$ | 

WRH ^d) 蔡 换 [0-9]| ， 就 得 到 Ad+\Ad+\sd+\sd+$| ， 这 样 可 能 更 好 看 一 些 ( 注 1) ， 但 是 ， 这 个 
表达 式 仍 然 会 捕获 一 些 并 非 IP 地 址 的 数据 ， 例 如 '1234.5678.9101112.131415” (IP 地 址 的 每 个 字段 都 在 0-255 
以 内 ) 。 那 么 ， 你 可 以 强行 规定 每 个 字段 必须 包含 三 位 数字 ， 就 是 和 dddw\d\id\dwd\d\d\\d\d\d$ | ， 但 这 样 
未 免 太 不 灵活 (too specific) 了 。 即 使 菜 个 字段 只 有 一 位 或 者 两 位 数字 〈 例 如 1.234.5.67) ， 也 应 该 匹配 。 
如 果 流派 支持 区 间 量 词 {fmin，max}， 就 可 以 这 么 是 jd{ 昌 Bid awd dk weywalin wri c. anmi h | 














持 ， 则 可 以 用 \d\d? \d? | 或 者 \d Add? ) ? | 。 这 两 种 方式 略 有 不 同 ， 但 都 能 匹配 一 到 三 个 数字 。 

现在 ， 正 则 表达 式 中 的 匹配 精度 可 能 已 经 满足 需求 了 。 如 果 要 更 精确 ， 束 必须 考虑 到 ， [\d{1, 3}, 能 
够 风 配 999， 而 它 超过 了 255， 所 以 它 不 是 一 个 合法 的 IP 地 址 。 

我 们 有 好 几 种 办 法 来 匹配 0O 和 255 之 间 的 数字 。 最 笨 的 办 法 就 是 10|1|2|3|...253|254|255| 。 不 过 这 又 不 能 
处 理 以 0 开头 的 数字 ， 所 以 必须 写成 ”0|00|000|1|01|001...， ， 这 样 一 来 ， 正 则 表达 式 就 长 得 过 分 了 。 对 于 
DFA 引 擎 来 说 ， 问 题 还 只 是 它 太 长 太 繁杂 一 一 但 匹配 的 速度 与 其 他 等 价 正 则 表达 式 是 一 样 的 。 但 对 于 NEFA 
引擎 ， 太 多 的 多 选 分 文 侧 直 束 是 效率 杀手 。 

实际 的 解决 办 法 是 ， 关 注 字 段 中 什么 位 置 可 以 出 现 哪些 数字 。 如 果 一 个 字段 只 包含 一 个 或 者 两 个 数 
字 ， 就 无 需 担心 这 个 字段 的 值 是 否 合法 ， 所 以 \dhd\d | 就 能 应 付 。 也 不 比 担心 那些 以 0 或 者 1 开头 的 三 位 
数 ， 因 为 000-199 都 是 合法 的 了 地 址 。 所 以 我 们 加 上 [odd ， 得 到 dddl[01JNdd | 。 你 可 能 觉得 这 有 点 
像 第 1 章 里 匹配 时 间 的 例子 C= 28) ， 和 前 一 章 中 匹配 日 期 的 例子 C177) 。 

继续 看 这 个 正则 表达 式 ， 以 2 开头 的 三 位 数字 ， 如 果 小 于 255 就 是 合法 的 ， 所 以 第 二 位 数字 小 于 5 就 代 
表 整 个 数 也 是 合法 的 。 如 果 第 二 位 数字 是 5， 第 三 位 数字 就 必须 小 于 6。 这 可 以 表示 为 ”2[0-4]\dl25[0-5]| 。 

现在 这 个 正则 表达 式 有 点 看 不 懂 了 ， 但 分 析 之 后 还 是 能 够 理解 其 中 包含 的 思路 。 结 果 就 是 [\d\d\d| 
[O1]\d\d|2[0-4]\d|25[0-5]) 。 其 实 我 们 可 以 合并 前 面 三 个 多 选 分 文 ， 得 到 


[01] ?\d\d312 [0-4] GT12310-3]1。 在 NFA 中 ， 这 样 做 的 效率 更 高 ， 因 为 任何 多 选 分 支 匹配 失败 
都 会 导致 回溯。 请 注意 ， 第 一 个 多 选 分 支 中 用 的 是 dd? ，， 而 不 是 nd? d ， 这 样 ， 如 果 根 本 不 存在 数 
Z, NFA 会 更 快 地 报告 匹配 失败 。 我 把 这 个 问题 的 分 析 留 给 读者 通过 一 个 简单 的 验证 束 能 发 现 二 者 的 
区 别 。 我 们 还 可 以 做 些 修改 进一步 提高 这 个 表达 式 的 效率 ， 不 过 这 要 留待 下 一 章 讨论 了 。 

现在 这 个 表达 式 能 够 匹配 0 21255 ”之 间 的 数 ， 我 们 用 括号 把 它 包 起 来 ， 用 来 取代 之 前 表达 陈 中 的 
\d{1, 3}; ， 就 得 到 : 

TA([O1]?\d\d?|2[0-4]\d|l25[0-5]N\.([01]?\d\d?|2[0-4N\dIl25[0-5D\.([01]?\d\d?|2[0-4]\dl25[0-5]N\.([01]?\d\d?|2[0- 
4]\d|25[0-5])$ , 

这 可 真 叫 复杂 ! FFE A RIS? 这 得 根据 具体 需求 来 决定 。 这 个 表达 式 只 会 匹配 合法 的 了 地址 ， 但 
是 它 也 会 匹配 一 些 语意 不 正确 的 IP 地 址 ， 例 如 0.0.0.0( 所 有 字段 都 为 零 的 IP 地 址 是 非法 的 ) 。 使 用 环视 功 
能 C133) 可 以 在 A 后 添加 C2 ! 0+\O+\O+v0+$) | ， 但 是 某 些 时 候 ， 处 理 各 种 极端 情形 会 降低 成 
本 / 收 荔 的 比例 。 茶 些 情况 下 ， 更 合适 的 做 法 束 是 不 依赖 正则 表达 式 完 成 全 部 工作 。 例 如 ， 你 可 以 只 使 用 
Adf1，3}Adt1，3}\Adf1，3NAdt1，3}$|， ， 用 括号 把 每 个 字段 括 起 来 ， 把 数字 变 成 程序 中 的 
$1、$2、$3、$4， 这 样 束 可 以 用 其 他 程序 来 验证 了 。 

确定 应 用 场合 (context) 

这 个 正则 表达 式 必须 借助 锚 点 '^ 和 1'$| 才能 正常 工作 ， 认 识 到 这 一 点 很 重要 。 否 则 ， 它 就 可 能 匹配 


B= Z| ce ta ec. ne 
i ) 和 

















， 如 果 使 用 传统 型 NFA， 则 可 能 匹配 

在 第 二 个 例子 中 ， 这 个 表达 式 甚 至 连 最 后 的 223 都 无 法 完整 史 配 。 但 是 ， 问 题 并 不 在 于 表达 式 本 号 ， 
因为 没有 东西 〈 例 如 分 隔 符 ， 或 者 末尾 的 锚 点 ) 强迫 它 匹配 223。 最 后 那个 分 组 的 第 一 个 多 选 分 支 [01]? 
\d\d? | ， 匹 配 了 前 面 两 位 数字 ， 如 果 末 尾 没有 $| ， 匹 配 到 此 就 结束 了 。 在 前 一 章 日 期 匹配 的 例子 中 ， 我 
们 可 以 安排 多 选 分 文 的 次 序 来 达到 期 望 的 目的 。 现 在 我 们 也 把 能 把 匹配 三 位 数字 的 多 选 分 支 放 在 最 前 面 ， 
这 样 在 匹配 两 位 数 的 多 选 分 文 获得 答 试 机 会 之 前 ， 任 何 三 位 数 都 能 完全 匹配 CDFAFIPOSIX NFA% 
要 这 样 安排 ， 因 为 它们 总 是 返回 最 长 的 匹配 文本 ) 。 

无 论 是 个 重新 排序 ， 第 一 个 错误 仍然 不 可 避免 。“ 啊 哈 ! ”， 你 可 能 会 想 ,， “我 可 以 用 单词 分 界 符 锚 点 来 
解决 这 个 问题 。” 不 幸 的 是 ， 这 也 不 能 奏效 ， 因 为 这 样 的 正则 表达 式 仍然 能 够 匹配 一 <>"?。 为 了 
避免 风 配 这 样 内 骸 的 文本 ， 我 们 必须 确保 匹配 文本 两 侧 至 人 少 没有 数字 或 者 点 写 。 如 果 使 用 环视 ， 可 以 在 原 
来 表达 式 的 首尾 添加 (3? <! Pw.) .… (? ! Dw.) | 来 保证 匹配 文本 之 前 (以 及 之 后 ) 不 出 现 | Pw.) 
能 匹配 的 字符 。 如 果 不 支持 环视 ， 在 首尾 添加 | CO)... CIS) | 也 能 够 应 付 某 些 情况 。 
|] O O U Linux|] |] www.linuxidc.com |] L] 














处 理 文件 名 


Working with Filenames 

处 理 文件 名 和 路 径 ， 例 如 Unix 下 的 /usr/local/bin/Perl 或 者 Windows 下 的 \Program Files\Yahoo! 
\Messenger， 人 很 适合 用 来 讲解 正则 表达 式 的 应 用 。 因 为 “动手 (using) ” 比 “ 观 摩 Creading) ”更 有 意思 ， 
会 同时 用 Perl、PHP (preg 程 序 ) 、Java 和 VB.NET 来 讲解 。 如 果 你 对 其 中 的 某 些 语言 不 感 兴趣 ， 不 妨 完 全 
跌 过 那些 代码 一 一 其 中 绚 含 的 思想 才 是 最 重要 的 。 

去 挥 文件 名 开头 的 路 径 

第 一 个 例子 是 去 揉 文 件 名 开始 的 路 径 ， 例 如 把 /srvlocalbin/gcc 变 成 gcc。 从 本 质 层面 来 考虑 问题 是 成 功 
的 一 半 。 在 本 例 中 ， 我 们 希望 去 抒 在 最 后 的 斜 线 〈 含 ) ZA CEWindows FERRE) 的 任何 字符 。 如 果 
没有 和 斜 线 最 好 ， 因 为 什么 也 不 用 干 。 我 曾 说 过 ，“.* | 常常 被 滥用 ， 但 是 此 处 我 们 需要 匹配 优先 的 特性 。 
Ax 中 的 .大 | 可 以 匹配 一 整 行 ， 然 后 回 退 〈 也 就 是 回 湖 ) 到 最 后 的 斜 线 ， 来 完成 匹配 。 

下 面 是 四 种 语言 的 代码 ， 去 摊 变 量 f 中 的 文件 名 中 开头 的 路 径 。 对 于 Unix 的 文件 名 : 











语 言 代 码 
Perl SE =~ a{*.*/} 1}; 
PHP $f = preg_replace('{*.*/}', '', $f); 
| jJava.util.regex f = f.replaceFirst ( rik E. ale F 
£ = Regex.Replace(f, "^.*/",""); i 


正则 表达 却 《 或 者 说 用 来 表示 正则 表达 去 的 字符 串 ) U PEREKRE, EURER AH N hH 
标注 。 

下 面 是 处 理 Windows 文 件 名 的 代码 ，Windows 中 的 分 隔 符 是 反 笠 线 而 不 是 料 线 ， 所 以 要 用 正则 表达 却 
人 大 N| 。 在 正则 表达 式 中 ， 我 们 需要 在 反 和 斜 线 前 再 加 一 个 反 和 斜 线 ， 才 能 表示 转 义 的 反 和 斜 线 ， 不 过 ， 在 中 
间 两 段 程 序 中 深 加 的 这 个 反 笠 线 本 身 也 需要 转 义 : 





语 言 代 码 

Perl SE =~ s/*.*\\//j 

PHP Şf = preg replace('/*.*\\\/', '', $f); 
java.util.regex f = f.replaceFirst("*.*\\\\",""); 
VB.NET f = Regex.Replace(f, "*.*\\",""); 


WIRE ae th oie a ese, TC eJava tA RAG CS 101) 。 
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线 ， 所 以 不 会 蔡 换 ， 字 从 串 也 不 会 变化 ， 而 这 正 是 我 们 需要 的 。 

为 了 保证 效率 ， 我 们 需要 记 住 NFA 引 擎 的 工作 原理 。 设 想 下 面 这 种 情况 : 我 们 忘记 在 正则 表达 式 的 开 
头 添加 ^| 符号 〈 这 个 符号 很 容易 忘记 ) ， 用 来 匹配 一 个 恰好 没有 和 斜 线 的 字符 串 。 同 样 ， 正 则 引擎 会 在 字 
符 串 的 起 始 位 置 开始 搜索 。 .x | 抵达 字符 串 的 末尾 ， 但 必须 不 断 回 退 ， 以 找到 和 斜 线 或 者 反 斜 线 。 直 到 最 
后 它 交 还 了 匹配 的 所 有 字符 ， 仍 然 无 法 匹配 。 所 以 ， 正 则 引擎 知道 ， 在 字符 种 的 起 始 位 置 不 存在 匹配 ， 但 
这 远 远 没有 结 

接 下 来 传动 装置 开始 工作 ， 从 在 目标 字符 串 的 第 2 个 字符 开始 ， 依 次 尝试 匹配 整个 正则 表达 式 。 事 实 
上 上， 它 需 要 在 字符 串 的 每 个 位 置 ( 从 理论 上 说 〉 进行 扫 摘 -回调 。 文 件 名 通 冲 很 得， 因此 这 不 是 一 个 问题 ， 
但 原理 确实 如 此 。 如 打字 符 昌 很 长 ， 瓯 可 能 存在 大 量 的 回调 “当然 ，DEFA 不 存在 这 个 问题 ) 。 


在 实践 中 ， | [和 x ry wnt td Co A 7 























在 茶 个 字符 串 的 起 始 位 置 不 能 匹配 ， 也 束 不 能 在 其 他 任何 位 置 匹 配 ， 所 以 它 只 会 在 字符 串 的 起 始 位 置 〈 嗓 
246) 尝试 一 次 。 不 过 ， 在 正则 表达 式 中 写 明 这 一 点 更 加 明 乔 ， 在 例子 中 我 们 正 是 这 样 做 的 。 
从 路 径 中 获取 文件 名 
另 一 种 办 法 是 忽略 路 径 ， 简 单 地 匹配 最 后 的 文件 名 部 分 。 最 终 的 文件 名 融 是 从 最 后 一 个 糙 线 开始 的 所 
AAR: [M$ 。 这 一 次 ， 错 点 不 仅仅 是 一 种 优化 措施 ， 我 们 确实 需要 在 结尾 设置 一 个 锚 点 。 现 在 我 们 
可 以 这 样 做 ， 以 Perl 来 说 明 : 
SWholePath =~ m{([%*/]*) S$}; # 利用 正则 表达 式 检 测 SwholePath 
SFilename = $1; # “记录 匹配 内 容 
你 也 许 注 意 到 了 ， 这 里 并 没有 检查 这 个 正则 表达 式 能 人 否 迪 配 ， 因 为 它 总 是 能 匹配 。 这 个 表达 式 的 唯一 
要 求 就 是 ， 字 符 串 有 $ 能 够 罗 配 的 结束 位 置 ， 而 即使 是 空 学 符 串 也 有 一 个 结束 位 置 。 因 此 ， 我 用 $1 来 引用 括 
号 内 的 表达 式 匹 配 的 文本 ， 因 为 它 必 定 包 括 茶 些 字 符 〈 如 果 文 件 名 以 斜 线 结尾 ， 结 果 束 是 空 字符 ) o 
这 里 还 需要 考虑 到 效率 : 在 NFA 中 ， [MXS] 的 效率 很 低 。 仔 细 想 想 NFA 引 擎 的 匹配 过 程 ， 你 会 明白 
它 包 括 了 太 多 的 回调 。 即 使 是 短 短 的 “usvlocalybin/per: ， 在 获得 匹配 结果 之 前 ， 也 要 进行 四 十 多 次 回调 。 


ere 下 jee 
考虑 从 25 ee aes M ,一直 匹配 到 第 二 个 1， 之 后 匹配 失败 ， 然 后 对 1、a、c、o、! 的 存 
cee] 1 ces , 
储 状 态 依 次 尝试 [$ 《都 无 法 匹配 ) 。 如 果 这 还 不 够 ， 又 会 从 ”TSa 7/ … 开 始 重复 这 个 过 程 ， 接 着 从 


… 1O cal/:: 
A 








开始 ， 不 断 重 复 。 

这 个 例子 不 应 该 消耗 我 们 太 多 的 精力 ， 因 为 文件 名 一 般 都 很 短 〈40 次 回溯 几乎 可 以 忽略 不 计 一 4 000 
人 
JE o 

需要 指出 的 是 ， 纵 然 本 书 是 关于 正则 表达 式 的 ， 但 正则 表达 式 也 不 总 是 最 优 解 。 例 如 ， 大 多 数 程序 设 
计 语 言 都 提供 了 处 理 文件 名 的 非 正则 表达 式 函 数 。 不 过 为 了 讲解 正则 表达 式 ， 我 仍 会 继续 下 去 。 

所 在 路 径 和 文件 名 

下 一 步 是 把 完整 的 路 径 分 为 所 在 路 径 和 文件 名 两 部 分 。 有 许多 办 法 做 到 这 一 点 ， 这 取 雇 于 我 们 的 要 
求 。 开 始 ， 你 可 能 想 要 用 A (.* ) GX) $) 的 $1 和 $2 来 提取 这 两 者 。 看 起 来 这 个 正则 表达 式 非 常 直观 ， 
但 知道 了 匹配 优先 量词 的 工作 原理 之 后 ， 我 们 知道 第 一 个 .x | 会 首先 捕获 所 有 的 文本 ， 而 不 给 /| 和 $2 
留 下 任何 字符 。 第 一 个 [.* | 能 交还 字符 的 唯一 原因 ， 就 是 在 尝试 匹配 [/ Cok) $) 时 进行 的 回溯 。 这 会 
把 “交还 的 ”部 分 留 给 后 面 的 .x* | 。 因 此 ，$1 就 是 文件 所 在 的 路 径 ，$2 就 是 文件 的 名 字 。 

需要 注意 的 是 ， 我 们 依靠 开头 的 【 Cx) /| 来 确保 第 二 个 Cw) | 不 会 匹配 任何 斜 线 。 理 解 匹配 优 
先 之 后 ， 我 们 知道 这 没 问题 。 如 果 要 做 的 更 精确 ， 可 以 使 用 '[NM]* | 来 捕 提 文件 名 。 于 是 我 们 得 到 ^ (. 
x) / NIK) $) 。 这 个 表达 式 准 确 地 表达 了 我 们 的 意图 ， 一 眼 残 能 看 明白 。 

这 个 表达 了 式 有 个 问题 ， 它 要 求 字符 串 中 必须 出 现 一 个 矢 线 ， 如 果 我 们 用 它 来 匹配 file.txt， 因 为 无 法 匹 
配 ， 所 以 没有 结果 。 如 采 我 们 和 布 望 精益 求 精 ， 可 以 这 样 : 

Zt (SWholePath = mi^ daty y ([*/]*}S!) { 
# 能 够 匹配 --S1 和 $2 都 合法 

SLeadingPath = $1; 

SFileName = $2; 











} else { 
# 无 法 匹配 ， 文 件 名 中 不 包含 / 
SLeadingPath = "."; # 所 以 "file.txt" 应 该 是 "./file.txt"” ("." 表 示 当 前 路 径 ) 


SFileName = SWholePath; 
} 


AA oa [| www.linuxidc.com |] | 


Matching Balanced Sets of Parentheses 

对 称 的 圆 括号 、 方 括号 之 类 的 符 亏 匹配 起 来 非 名 麻烦 。 在 处 理 配置 文件 和 源 代 码 时 ， 经 币 需 要 匹配 对 
称 的 括号 。 例 如 ， 解 析 C 语言 代码 时 可 能 需要 处 理 东 个 图 数 的 所 有 参数 。 困 数 的 参数 包 侣 在 畏 数 名 称 之 后 
的 括号 里 ， 而 这 些 参 数 本 里 义 有 可 能 包含 散人 套 的 函数 调用 或 是 算式 中 的 括号 。 我 们 先 不 考虑 艇 套 的 括 与 ， 


[ 人 大 
你 或 许 会 想到 DOO EDIN RERE. 
秉承 C 的 光荣 传统 ， 我 把 示范 函数 命名 为 ”foo。 表 达 式 中 的 标记 部 分 是 用 来 捕获 参数 的 。 对 于 
foo(2,°4.0) foo(somevar,*3./7) 
一 一 一 一 和 一 一 一 一 一 一 一 之 类 的 参数 ， 这 个 表达 式 完 全 没 问 题 。 但 是 ， 它 也 可 以 匹配 
| 这 可 不 是 我 们 需要 的 。 所 以 要 用 到 比 '[^) ]x | 更 聪明 的 办 法 。 
为 了 匹配 括号 部 分 ,我们 可 以 尝试 下 面 的 这 些 正则 表达 式 : 
1\《. 类 \) 括号 及 括号 内 部 的 任何 字符 。 
2\ (A) ] 关 \) 从 一 个 开 括号 到 最 近 的 财 括号 。 
3\ (AO ]*\) 从 一 个 开 括号 到 最 近 的 闭 括 号 ， 但 是 不 容许 其 中 包含 开 括号 。 
图 5-1 显 示 了 对 一 行 简单 代码 应 用 这 些 表 达 式 的 结果 。 


foo (bar (seomevar) ,°3./7 
ws 





需要 匹配 的 部 分 


val = foo(bar(this), 3.7) + 2 * (that - 1); 


es ae O 
正则 表达 式 2 匹 配 的 部 分 


正则 表达 式 1 匹配 的 部 分 





图 5-1: 三 个 表达 式 的 匹配 位 置 

我 们 看 到 ， 第 一 个 正则 表达 式 匹 配 的 内 容 太 多 〈 注 2) ， 第 二 个 正则 表达 式 匹 配 的 内 容 太 少 ， 第 三 个 正 
MRAR ELE. IMA, BZN EMRAN EILE this) ，， 但 是 因为 表达 式 要 求 它 必须 紧 接 在 
foo 之 后 ， 所 以 无 法 匹配 。 所 以 ， 这 三 个 表达 陈 都 不 合格 。 

真正 的 问题 在 于 ， 大 多 数 系统 中 ， 正 则 表达 式 无 法 匹配 任意 深度 的 舱 僚 结构 。 在 很 长 的 时 间 内 ， 这 是 
放 之 四 海 而 皆 准 的 规则 ， 但 是 现在 Perl、.NET 和 PCRE/PHP 都 提供 了 解决 的 办 法 〈 人 参见 第 328、436、475 
W) 。 但 是 ， 即 使 不 用 这 些 功能 ， 我 们 也 可 以 用 正则 表达 陈 来 匹配 特定 深度 的 众 套 括号 ， 但 不 是 任意 深度 
的 藤 僚 括 写 。 处 理 单 层 散 僚 的 正则 表达 式 古 : 

IAQ] * AAO] * AO] *) *\) 

这 样 类 推 下 去 ， 更 深层 次 的 舱 套 束 复 条 得 可 怕 。 但 是 ， 下 和 面 的 ”Perl Fehr, EERE E $depthz 
后 ， 生 成 的 正则 表达 式 可 以 毗 配 最 大 深度 为 $depth 的 骸 僚 括号 。 它 使 用 的 是 Perl 的 “string x count” 运 算 符 ， 
这 个 运算 符 会 把 string 重 复 counti 众 : 

$regex="\ C'.' C2: [A O J]\ Cx $depth. ^n © J>. ) *'x $depth.) ';， 这 个 表达 式 留 给 读者 分 析 。 


防备 不 期 强 的 匹配 

















Watching Out for Unwanted Matches 
有 个 问题 很 容易 筷 记 ， 即 ， 如 林 竺 分析 的 文本 不 符合 使 用 痢 的 预期 ， 会 福生 什么 。 假 设 你 再 要 编写 一 
个 过 滤 程 序 ， 把 普通 文本 转换 为 HIML， 你 希望 把 一 行 连 字 符号 转换 为 HIML 中 代表 一 条 水 平 线 的 本 HR 


之。 如 条 使 用 搜索 - 答 换 命令 s/-*/<HR>/, CTP nose id de Hit 0 


很 奇怪 吗 ? 事实 上 ，s/-*/ 二 HR 放 / 会 把 二 HR 添加 到 








请 记 住 ， 如 果 某 个 元 素 的 匹配 没有 硬性 规定 任何 必须 出 现 的 字符 ， 那 么 它 总 能 匹配 成 功 。 ' -类 | 从 字 
从 串 的 起 始 位 置 开始 笠 试 岂 配 ， 它 会 匹配 可 能 的 任何 连 字 从。 但 是 ， 如 果 没 有 连 字 和 人 符 ， 它 仍然 能 匹配 成 
功 ， 这 完全 符合 星 号 的 定义 。 

在 某 位 我 非常 尊重 的 作者 的 作品 中 出 现 过 类 似 的 例子 ， 他 用 这 个 例子 来 讲解 正则 表达 式 匹配 一 个 数 ， 
或 者 是 整数 或 者 是 浮 点 数 。 在 它 的 正则 表达 式 中 ， 这 个 数 可 能 以 负数 符号 开头 ， 然 后 是 任意 多 个 数字 ， 然 
后 是 可 能 的 小 数 点 ， 再 是 任何 多 的 数字 。 他 的 正则 表达 式 是 『-? [0-9]*\.2 [0-9] | « 

确实 ， 这 个 正则 表达 式 可 以 匹配 1、-272.37、129238843.、.191919， 甚 至 是 -.0 这 样 的 数 。 这 样 看 来 ， 
它 的 确 是 个 不 错 的 正则 表达 式 。 

但 是 ， 你 想 过 这 个 表达 式 如 何 匹 配 'this'has'no'number nothing'here: 或 是 空 字符 串 吗 ? 仔细 看 看 这 个 下 
则 表达 式 -个 部 分 痢 不 是 匹配 必须 的 。 如 果 存 在 一 个 数 ， 如 末 正 则 表达 式 从 在 字符 串 的 起 始 位 置 开 
始 ， 的 确 能 够 匹配 ， 但 是 因为 匹配 没有 任何 必须 元 素 。 此 正则 表达 式 可 以 匹配 每 个 例子 中 字符 串 开 头 的 衬 
字符 。 实 际 上 它 甚 至 可 以 匹配 um:123: 开 头 的 空 字符 ， 因 为 这 个 空 字符 比 数字 出 现 得 更 早 。 

所 以 ， 把 真正 意图 表达 清楚 是 非 党 重要 的 。 一 个 浮 点 数 必须 要 有 人 至 少 一 位 数字 ， 天 则 束 不 是 一 个 合法 
的 值 。 我 们 首先 假设 ， 在 小 数 点 之 前 至 少 有 一 位 数字 (之 后 我 们 会 去 挥 这 个 条 件 ) 。 如 果 是 ， 我 们 需要 用 
加 号 来 控制 这 些 数字 [-? [0-9]+| 。 

如 果 要 用 正则 表达 式 来 匹配 可 能 存在 的 小 数 点 〈 及 其 后 的 数字 ) ， 就 必须 认识 到 ， 小 数 部 分 必须 紧 接 
在 小 数 点 之 后 。 如 果 我 们 简单 地 用 V2 [0-9]x | ， 那 么 无 论 小 数 点 是 否 存在 ， 「[0-9]x | 都 可 能 匹配 。 

解决 的 办 法 还 是 厘清 我 们 的 意图 : 小 数 点 (以 及 之 后 的 数字 ) 是 可 能 出 现 的 : ，(\[0-9]x ) ? jo X 
里 ， 问 号 限定 《也 可 以 叫 “ 统 治 governs” 或 者 “控制 controls”〉 的 不 再 是 小 数 点 ， 而 是 小 数 点 和 后 面 的 小 数 部 
分 。 在 这 个 结合 体内 部 ， 小 数 点 是 必须 出 现 的 ， 如 果 没 有 小 数 点 ， 1[0-9]* | 根本 谈 不 上 匹配 。 

把 它们 结合 起 来 ， 就 得 到 -? [0-9]+〈\[0-9]x ) ? | 。 这 个 表达 式 不 能 匹配 1.007?， 因 为 它 要 求 整 数 部 
分 必须 有 一 位 数字 。 如 果 我 们 作 些 修改 ， 容 许 整 数 部 分 为 宇 ， 束 必须 同时 修改 小 数 部 分 ， 天 则 这 个 表达 式 
束 可 以 罗 配 容 字 从 (这 是 我 们 一 开始 束 准 备 解决 的 问题 〉。 

| _ 大 = = 

解决 的 办 法 是 为 无 法 黎 盖 的 情况 添加 多 选 分支 ，-? [0-9]+(\. [0-9]*)? | = 2\. [07914 Gs 
样 就 能 匹配 以 小 数 点 开头 的 小 数 〈 小 数 点 是 必须 的 ) 。 仔 细 看 看 ， 仔 细 看 看 。 你 注意 到 了 吗 ? 第 二 个 多 选 
分 支 同样 能 够 匹配 负数 符号 开头 的 小 数 ? 这 很 容易 忘记 。 当 然 ， 你 也 可 以 把 -? | 提出 来 ， 放 到 所 有 多 选 
结构 的 外 面 : '-? ([0-9]+ (\.[0-9]*) ? |\[0-9]+) | 。 

vue ep ee 2003.04.12" 0. ua 

BAXRA kaan, (BE TASER 这 样 的 数字 。 要 想 真 正 匹 配 期 
望 的 文本 ， 同 时 急 略 不 期 望 的 文本 ， 求 得 平衡 ， 束 必须 了 解 实 际 的 竺 匹配 文本 。 我 们 用 来 提取 浮 点 数 的 正 
则 表达 式 必须 包含 在 一 个 大 的 正则 表达 式 内 部 ， 例 如 用 ^...$| 或 者 [numis * =\s 大 ...$| 。 


匹配 分 隔 符 之 内 的 文本 












































Matching Delimited Text 

VLRO ar Baer AREER) ZR MA EAE LES, AAO S| Ss A CAS AIP Hk A 
是 这 类 问题 中 的 两 个 典型 例子 。 其 他 的 例子 还 包括 : 

e 几 配 4/ 火 ?和 ' 火 /之 间 的 C 语 言 注 释 。 

e 了 三 配 一 个 HIML tag， 也 就 是 尖 括 号 之 内 的 文本 ， 例 如 入 CODE>。 

e 提 取 HTML tag 标 注 的 文本 ， 例 如 在 HTML 代码 'a<I>super exciting </I> offer! :中 的 'super 
exciting’ 。 

ee 中 配 .mailrc 文 件 中 的 一 行内 容 。 这 个 文件 的 每 一 行 都 按 下 面 的 数据 格式 来 组 织 : 

alias 简称 电子 邮件 地 址 

例如 ‘alias jeff jfriedl@regex.info’ 《在 这 里 ， 分 隔 侍 是 每 个 部 分 之 间 的 空 日 和 换行 件 ) 。 

efLAC S| SC FFA (quoted = string) ， 但 是 容许 其 中 包含 转 义 的 引号 , 例如 ‘a passport needs a 


pdi VE dikeness, of the holder’ 
l | O O O Linuxi [|] www.linuxidc.com [] [] 

















e 解 术 CSV CA 54E, comma-separated values) 文件 。 

恕 的 来 说 ， 处 理 这 些 任务 的 步骤 是 : 

1. 匹 配 起 始 分 隔 符 (opening delimiter) 。 

2. PLACIESC (main text， 即 结束 分 隅 符 之 前 的 所 有 文本 ) 。 

3. 匹 配 结束 分 隔 符 。 
我 曾经 说 过 ， 如 末 结 束 分 隅 侍 不 只 一 个 字 从 ， 或 者 结束 分 隅 和 从 能 够 出 现在 正文 中 ， 这 种 任务 就 很 难 完 

容许 引文 字符 串 中 出 现 转 义 引 号 

来 看 入 " x3\" 的 例子 ， 这 里 的 结束 分 隔 符 是 一 个 引号 ， 但 正文 也 可 能 包含 转 义 之 后 的 引 扎 。 匹 配 开 始 
和 结束 分 隔 符 很 容易 ， 诀 穷 束 在 于 ， 匹 配 正 文 的 时 候 不 要 超越 结束 分 隔 符 。 

仔细 想 想 正文 里 能 够 出 现 的 字符 ， 我 们 知道 ， 如 果 一 个 字符 不 是 引号 ， 也 残 是 说 如 末 这 个 字符 能 
[IA"T 匹配 ， 那 么 它 肯 定 属于 正文 。 不 过 ， 如 果 这 个 字符 是 一 个 引号 ， 而 它 前 面 又 有 一 个 反 斜 线 ， 那 么 
这 个 引号 也 属于 正文 。 把 这 个 意思 表达 出 来 ， 使 用 环视 C2133) 功能 来 处 理 * 如 果 之 前 有 上 反 和 斜 线 " 的 情况 ， 
就 得 到 |" Ga" O <=\)" ) 大 "| ， 这 个 表达 式 完全 能 够 匹配 入 " x3\" 。 

不 过 ， 这 个 例子 也 能 用 来 说 明 ， 看 起 来 正确 的 正则 表达 式 如 何 会 匹配 意料 之 外 的 文本 ， 它 虽然 看 起 来 
正确 ， 但 不 是 任何 情况 下 都 正确 。 我 们 布 望 它 匹配 下 面 这 个 无 聊 的 例子 中 的 划 线 部 分 : 














Darth Symbols: */=—|=-34" en T=S]” 
但 它 匹 配 的 是 
Darth Symbols MA- or “[*=*]™ 


这 是 因为 ， 第 一 个 闭 引 号 之 前 的 确 存 在 一 个 反 斜 线 。 但 这 个 反 斜 线 本 身 是 被 转 义 的 ， 它 不 是 用 来 转 义 
之 后 的 双 引 号 的 〈 也 残 是 说 这 个 引 吉 其 实 是 表示 引用 文本 的 结束 ) 。 而 刻 序 环视 无 法 识别 这 个 被 转 义 的 反 
斜 线 ， 如 果 在 这 个 引号 之 前 有 任意 多 个 \\%， 用 逆序 环视 只 会 把 事情 卉 得 更 糟 。 原 来 的 表达 式 的 真正 问题 在 
于 ， 如 果 反 和 斜 线 是 用 来 转 义 引号 的 ， 在 我 们 第 一 次 处 理 它 时 ， 不 会 认为 它 是 表示 转 义 的 反 斜 线 。 所 以 ， 我 
们 得 用 别 的 办 法 来 解决 。 

仔细 想 想 我 们 想 要 风 配 的 位 于 开始 分 阳 从 和 结束 分 隔 从 之 间 的 文本 ， 我 们 知道 ， 其 中 可 以 包括 转 义 的 
字符 ( IN ) ， 也 可 以 包括 非 引 号 的 任何 字符 TIA" ]| 。 于 是 我 们 得 到 [" A'D x*" | 。 不错 ， 现 
在 这 个 问题 解决 了 。 不 事 的 是 ， 这 个 表达 式 还 有 问题 。 不 期 望 的 匹配 仍然 会 发 生 ， 比 如 对 这 个 文本 ， 它 应 
该 是 无 法 匹配 的 ， 因 为 其 中 没有 结束 分 隅 符 。 

"You need a 2\"x3\" Photo. 


JATA pe VE Ace? [BF DO BCC N AEA a Ee RS VE” C167) 。 即 使 这 个 表达 式 一 开始 
PLACE y FLERE, WRAP RIS Ss, ERS, BIA 


fee Dx\ "3 \ Messe’ 
A 


从 这 里 开始 ，“[A"] 匹配 到 反 斜 线 ， 之 后 的 那个 引号 被 认为 是 一 个 结束 的 引号 。 

这 个 例子 给 我 们 的 重要 局 示 是 : 
如 采 回 渊 会 导致 不 期 望 ， 与 多 选 结 构 有 关 的 匹配 结 末 ， 问 题 很 可 能 在 于 ， 任 何 成 功 的 匹配 都 不 过 是 多 选 分 

文 的 排列 顺序 造成 的 侦 然 结果 。 

实际 上 ， 如 采 我 们 把 这 个 正则 表达 式 的 多 选 分 文 反 过 来 排列 ， 它 残 会 错误 地 匹配 任何 包含 转 义 双 引 号 
的 字符 串 。 真 正 的 问题 在 于 ， 各 个 多 选 分 支 能 够 匹配 的 内 容 发 生 了 重合。 

那么 ， 应 该 如 何 解 决 这 个 问题 呢 ? 束 像 第 186 页 的 那个 连续 行 的 例子 一 样 ， 我 们 必须 确 你 ， 这 个 反 冬 线 
不 能 以 其 他 的 方式 匹配 ， 也 就 是 说 把 [和 "]| 改 为 A" 。 这 样 就 能 识别 双 引 号 和 文本 中 的 “特殊 ” 反 斜 
线 ， 必 须根 据 情 况 分 别处 理 。 结 果 就 是 OAD 类 "| ， 它 工作 得 很 好 (尽管 这 个 正则 表达 式 能 够 
正常 工作 ， 但 对 于 NEFA 引 擎 来 说 ， 仍 然 有 提升 效率 的 改进 ， 我 们 会 在 下 一 章 更 详细 地 看 这 个 例子 ， 鹤 
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这 个 例子 告诉 我 们 一 条 重要 的 原理 : 由 串口 中 Binux |] www.linuxidc.com [| L] 























不 应 该 扎 记 考 碟 这 样 的 “特殊 ”情形 : BEET ORR Chad) ”的 数据 ， 正 则 表达 式 不 应 该 能 够 风 配 。 

我 们 的 修改 是 正确 的 ， 但 是 有 半 思 的 是 ， 如 果 有 占有 优先 量词 (全 142) 或 者 是 固化 分 组 〈 吗 139) ， 
这 个 正则 表达 式 可 以 重新 写作 "” AAD x+" 和" Q > (WI 和"]) **)" |。 这 两 个 正则 表达 
式 禁 止 引擎 回 漳 到 可 能 出 问题 的 地 方 ， 所 以 它们 都 可 以 满足 要 求 。 

理解 占有 优先 量词 和 国 化 分 组 解决 此 问题 的 原理 非常 有 价值 ， 但 是 我 仍然 要 继续 之 前 的 修正 ， 因 为 对 
读者 来 说 它 更 具 描 述 性 (更 直观 ) 。 其 实在 这 个 问题 上 ， 我 也 愿意 使 用 占有 优先 量词 和 国 化 分 组 一 一 不 是 
为 了 解决 之 前 的 问题 ， 而 是 为 了 效率 ， 因 为 这 样 报告 匹配 失败 的 速度 更 快 。 


了 解数 据 ， 做 出 假设 


Knowing Your Data and Making Assumptions 

现在 是 时 候 强 调 我 曾经 数 次 近 到 过 的 关于 构建 和 使 用 正则 表达 式 的 一 般 规则 了 。 知 道 正则 表达 式 会 在 
什么 情况 中 应 用 ， 关 于 目标 数据 又 有 什么 样 的 假设 ， 这 非常 重要 。 即 使 简单 如 al 这 样 的 数据 也 假设 目标 
CNET mE EO Ee SAS SS eM RE SSE: AAS E EE 




















但 是 ， 许 多 对 菏 个 人 来 说 明显 的 常识 ， 可 能 对 其 他 人 来 说 并 不 明显 。 例 如 ， 前 一 市 的 解决 办 法 假设 转 
义 的 换行 符 不 会 被 匹配 ， 或 者 会 被 应 用 于 点 号 通 配 异 式 《〈 嘿 111) 。 如 末 我 们 其 的 想 要 保证 点 写 可 以 匹配 换 
行 符 ， 同 时 流派 也 支持 ， 我 们 应 该 使 用 (? s: .) | 。 

前 一 节 中 我 们 还 假设 了 正则 表达 式 将 应 用 的 数据 类 型 ， 它 不 能 处 理 表 示 其 他 用 途 的 双 引 号。 如 果 用 这 
个 正则 表达 式 来 处 理 任 何 程 序 的 源 代 人 码 ， 束 可 能 出 错 ， 因 为 注释 中 可 能 包括 双 引 号 。 

对 数据 做 出 假设 ， 对 正则 表达 式 的 应 用 方式 做 出 假设 ， 部 无 可 厚 非 。 问 题 在 于 ， 假 设 如 来 存在 ， 通 季 
会 过 分 乐观 ， 也 会 低估 了 作者 的 意图 和 正则 表达 式 最 终 应 用 间 的 看 弄 。 记 录 下 这 些 假 设 会 有 儿 助 。 


去 除 文本 首尾 的 空 日 字符 


Stripping Leading and Trailing Whitespace 
人 
= > 

s/\st+//; 

s/\st+$//; 

为 了 增加 效率 ， 我 们 用 “+| 而 不 是 x | ， 因 为 如 果 事 实 上 没有 需要 删除 的 空白 字符 ， 就 不 用 做 蔡 
换 。 

出 于 茶 些 考虑 ， 人 人 们 似乎 更 希望 用 一 个 正则 表达 式 来 解决 整个 问题 ， 所 以 我 会 提供 一 些 方法 供 比较 。 
我 不 推荐 这 些 办 法 ， 但 对 理解 这 些 正则 表达 式 的 工作 原理 及 其 问题 所 在 ， 非 常 有 意义 。 

s/\s * (. * ?)\s * $/$1/s 

这 个 正则 表达 式 曾 被 用 作 降 解 忽 略 优 和 完 量词 的 绝 佳 例子 ， 但 现在 不 是 了 ， 因 为 人 们 认识 到 它 比 普 通 的 
办 法 慢 得 多 在 Perl 中 要 慢 5 们 ) 。 之 所 以 效率 这 么 低 ， 是 因为 忽略 优先 约束 的 点 亏 每 次 应 用 时 都 要 检查 

sx$ 。 这 需要 大 量 的 回溯 。 

s/\\s * ((?:. 类 \9)?)Ns * $/$1/s 

ANKANA REE EE ES BE RS TTT EL SY NYT) tJ ee PEE 77 YZ 
的 2 倍 。 在 TAsx* | 匹配 了 文本 开头 的 空格 之 后 ， [.x* ;马上 匹配 到 文本 的 末尾 。 后 面 的 AS | 强迫 它 回溯 直 
到 找到 一 个 非 空 的 字符 ， 把 剩 下 的 空白 字符 留 给 最 后 的 \sx$| ， 捕 获 括号 之 外 的 。 

问号 在 这 里 是 必须 的 ， 因 为 如 果 一 行 数据 只 包含 空白 字符 的 行 ， 必 须 出 现 问号 ， 表 达 式 才能 正常 工 
作 。 如 果 没 有 问号 ， 可 能 会 无 法 匹配 ， 错 过 这 种 只 有 空 日 字符 的 行 。 

S/ANS+|\s+$/g 

这 是 最 容易 想到 的 正则 表达 式 ， 但 它 不 正确 其 实 这 三 个 正则 表达 式 都 不 正确 ) ， 这 种 顶 极 的 〈top- 
leveled) 多 选 分 文 排列 严重 影响 本 来 可 能 使 用 的 优化 措施 《参见 下 一 章 ) 。/g 这 个 修饰 从 是 必须 的 ， 它 容 
on te ET 
RE MEET, EASE ER ARTIF eis stk NE ORA di Me oxKdG om [| O 











测试 时 我 提 到 了 相对 速度 ， 但 是 实际 的 相对 速度 取决 于 所 用 的 软件 和 数据 。 例 如 ， 如 果 目 标 文 本 非常 
非常 长 ， 而 且 在 首尾 只 有 很 少 的 空格 ， 中 间 的 那个 表达 式 甚至 会 比 简单 的 方法 更 快 。 不 过 ， 我 目 己 在 程序 
中 仍然 使 用 下 和 面 两 种 形式 的 正则 表达 式 : 

s/M\st//;s/\st+$//; 

因为 它 几 乎 总 是 最 快 的 ， 而 且 显 然 最 容易 理解 。 





[| 日 日 Linux[| || www.linuxide.com [] [] 


HTML 相 关 范 例 


HTML-Related Examples 
在 第 2 章 ， 我 们 曾 讨 论 过 把 纯 文本 转换 为 HTML 的 例子 (号 67) ， 其 中 要 使 用 正则 表达 式 从 文本 中 提取 
E-mail 地 址 和 http UREL。 本 贡 来 看 一 些 与 HIML 相 关 的 其 他 处 理 。 





匹配 HTML Tag 


Matching an HTML Tag 

最 常见 的 办 法 就 是 用 【<[^A>]+> | 来 匹配 HTML 标签 。 它 通常 都 能 工作 ， 例 如 下 面 这 段 用 来 去 除 标 
Z Perig Aj: 

$html=~s/<[^> ]+>//g; 

mRtagt EA >’, ERARE LS, mMm tagt WA se GSA HTMLAWIG AY: <input name=dir 
value=" >" > 之。 虽然 这 种 情况 很 少见 ， 也 不 为 大 家 推荐 ， 但 HIML 语 言 确实 容许 在 引号 内 的 tag 属 性 中 出 
FER SLE OFS? DORR, ALA S> 就 无 法 匹配 了 ， 得 想 个 聪明 点 的 办 法 。 

去 .> 中 能 够 出 现 引 用 文本 和 非 引用 形式 的 “其 他 文本 〈other stuff) ”， 其 中 包括 除了 之 :和 引号 之 外 
WERF. HTML 的 引文 可 以 用 蛙 引 和 写 ， 也 可 以 用 双 引 号。 但 不 容许 转 义 舱 倒 的 引号 ， 所 以 我 们 可 以 直 
接 用 1 "[A"]x "| Al pA pe) 来 匹配 。 

把 这 些 和 “其 他 文本 ”表达 式 [人 " >] 合 起 来 ， 我 们 得 到 ; 

(区 
这 个 表达 式 可 能 有 点 难看 懂 ， 那 么 加 上 注释 ， 按 宽松 排列 格式 来 看 : 


< # 开始 尖 插 号 "<" 

任意 数量 的 ... 
双 引 号 字符 串 
或 者 是 ... 
单 引 号 字符 串 
RA... 
"其 他 文本 " 


+ ++ HHHH 井 


结束 尖 揪 号 wu 


RP RIASU SE, ESTES HREN Toc, MAS Ae SLA Ae 
许 出 现 什 么 字符 。 这 个 表达 式 的 各 部 分 不 会 轧 配 重复 的 字符 ， 因 此 不 存在 模糊 性 ， 也 就 不 需要 担心 发 生前 
面 例子 中 出 现 的 ，“ 不 小 心 时 出 来 (sneaking in) ” 非 期 望 匹 配 。 

不 知 你 是 否 注意 到 了 ， 最 开始 的 两 个 多 选 分支 的 引号 中 使 用 了 “ x| ， 而 不 是 +| 。 引 用 字符 串 可 能 
KZ Alat" "> ， 所 以 要 用 类 | 来 处 理 这 种 情况 。 但 不 要 在 第 三 个 多 选 分 支 中 用 Pw) 取代 
+), AA TIA" >], 只 接受 括号 外 的 大 | 的 限定 。 给 它 添加 一 个 加 号 得 到 Cn" >]+) 类 | ， 可 能 导 
致 非常 奇怪 的 结果 ， 我 不 期 望 旋 者 现在 束 能 理解 ， 下 一 章 C226) 会 详细 讲解 它 。 

在 使 用 NFA 引 擎 时 ， 我 们 还 需要 考虑 关于 效率 的 问题 : 既然 没有 用 到 括号 匹配 的 文本 ， 我 们 可 以 把 它 
们 改 为 非 捕获 型 括号 (137) 。 因 为 多 选 分 支 之 间 不 存在 重复 ， 如 果 最 后 的 .> | 无 法 匹配 ， 那 么 回头 来 
答 试 其 他 的 多 选 分 文 也 是 徒 玫 的。 如 果 一 个 多 选 分 文 能 够 在 东 个 位 置 匹 配 ， 那 么 其 他 多 选 分 文 肯 定 无 法 在 
这 里 匹配 。 上 所以， 不 保存 状态 也 无 所 谓 ， 这 样 做 还 可 以 更 快 地 导致 失败 ， 如 果 找 不 到 匹配 结果 的 话 。 我 们 
可 以 用 固化 分 组 C >) | 而 不 是 非 捕获 型 括号 〈 或 者 用 占有 优先 的 星 号 限定 ) 。 


VL ACE ME Linkinux O www.linuxidc.com [] [] 




















Matching an HTML Link 
假设 我 们 需要 从 一 份 文档 中 提取 URL 和 链接 文本 ， 例 如 下 面 的 文本 中 标记 的 内 容 : 
…<a href="http://www.oreilly.com">O'Reilly Media</a>° 


因为 <A> tag 的 内 容 可 能 相当 复杂 ， 我 会 分 两 步 实 现 这 个 任务 。 第 一 个 是 提取 入 A> ”tag 内 部 的 内 
容 ， 也 就 是 链接 文本 ， 然 后 从 <A> tag 中 提取 URL 地 址 。 

实现 第 一 步 有 个 简单 办 法 ， 就 是 在 点 号 通 配 模式 下 应 用 不 区 分 大 小 写 的 <alb (M>) > (.*?) 
/a | ， 这 里 使 用 了 忽略 优先 量词 。 它 会 把 A 的 内 容 放 入 $1， 把 链接 文本 放 入 $2。 当 然 ， 像 之 前 一 
样 ， 我 不 应 该 用 [A>]+| ， 而 应 该 使 用 前 几 节 中 的 表达 式 。 不 过 在 本 节 ， 我 会 继续 使 用 这 个 简单 的 形式 ， 
因为 这 样 正 则 表达 式 更 短 ， 也 更 容易 讲解 。 

二 A 二 的 内 容 存 入 字符 串 之 后 ， 束 可 以 用 独立 的 正则 表达 式 来 检查 它们 。 其 中 ，URL 是 href=value 属 性 
的 值 。 之 前 已 经 说 过 ，HTML 容 许 等 号 的 任意 一 侧 出 现 空 白字 符 ， 值 可 以 以 引用 形式 出 现 ， 也 可 以 以 非 引 
用 形式 出 现 。 下 面 的 Perl 代码 用 来 输出 变量 $Html 中 的 链接 。 

# 请 注意 : while(...) 中 的 正则 表达 入 是 向 化 的 形式 ， 请 参见 正文 

while (S$Html =~ m{a\b([*>]+)>(.*?)</a>}ig) 

{ 

my $Guts = $1; # 把 匹配 结果 存 入 ... 











my SLink = $2; # i: 对 应 变量 
1f (SGuts =~ mi 
\b HREF # "href" 属性 
\s* = \s* # "=" ae Rebs oF H 
(7 # 其 值 为 ... 
| E 4 S Ci > FH B 
| # 或 者 是 ... 
g ho o # S| PP 
| # 或 者 是 ... 
(PEAS F "其 他 文本 " 
) # 
FXL) 
{ 
my $Url = $+; # 获得 $1、$2 等 中 实际 参与 匹配 的 编号 最 大 的 捕获 型 括号 的 内 容 


print "SUrl with link texta Shlink\n": 
} 

} 

AJLA ER: 

e 我 们 为 匹配 值 的 每 个 多 选 结构 都 添加 了 括号 ， 来 捕获 确切 的 文本 。 
e 因 为 我 使 用 了 茶 些 括号 来 捕获 文本 ， 在 不 需要 捕获 的 地 方 我 使 用 非 捕获 型 括号 ， 这 样 做 既 清 楚 又 高 
XXX。 

e“ 其 他 字符 ”部 分 排除 了 空 晶 字符， 也 排除 了 引号 和 人 二’。 

e 办 为 需要 捕获 整个 href 的 值 ， 这 里 使 用 了 +| 来 限制 “其 他 文本 ”多 选 分 支 。 这 是 否 会 和 第 200 页 对 其 
他 字符 应 用 +) 一 样 导 致 “非常 奇怪 的 结果 ” 呢 ? 不 会 ， 因 为 这 外 面 没 有 直接 作用 于 整个 多 选 结构 的 量词 。 
其 中 的 细节 同样 会 在 下 一 章 讨论 。 

根据 具体 文本 的 不 同 ， 最 后 ，URL 可 能 保存 在 $1、$2 或 者 $3 中 。 此 时 其 他 捕获 型 括号 就 为 空 或 是 未 
定义 。Penl 提 供 了 特殊 变量 $+， 代 表 $1、$2 之 类 中 编号 最 靠 后 的 捕获 文本 。 在 本 例 中 ， 这 就 是 我 们 真正 需 
要 的 URL。 


Perl 中 的 $+ 很 方便 ， 其 他 语言 也 提供 了 其 他 办 际 来 法 择 拥 效 黎 URL. | Fs A eee ot ied ASE | 





捕获 型 括号 ， 找 到 需要 的 内 容 。 如 果 能 够 文 持 ， 命 名 捕获 CS 138) 最 适用 于 干 这 个 ， 束 像 204 页 的 
VB.NET 的 例子 那样 〈( 斑 亏 .NET 提 供 了 命名 捕获 ， 因 为 它 的 $+ 有 问题 ， 写 424) 。 


检查 HTTP URL 


Examining an HTTP URL 
现在 我 们 得 到 了 URL 地 址 ， 来 看 看 它 是 否 是 HTTP URL， 如 果 是 ， 就 把 它 分 解 为 主机 名 (hostname) 
和 路 径 (path) 两 部 分 。 因 为 已 经 有 了 URL， 任 务 就 比 从 随机 文本 中 识别 URL 要 简单 许多 ， 识 别 的 程序 要 
难 许多 ， 这 将 在 后 文 介绍 。 
所 以 ， 如 果 拿 到 一 个 URL， 我 们 需要 能 够 将 它 拆 分 为 各 个 部 分 。 主 机 名 是 Thttp: /1 之 后 和 第 一 个 反 
斜 线 (如 果 有 的 话 ) 之 前 的 内 容 ， 而 路 径 就 是 除 此 之 外 的 内 容 : Mhtp: / (Mt) X)? S 
URL ”中 有 可 能 包含 端口 号 ， 它 位 于 主机 名 和 路 径 之 间 ， 以 一 个 冒号 开头 : http: / CIN: J G 
(\d+) ) 7 UW)? Sje 
下 面 是 一 个 分 解 URE 的 Perl 代 三: 
SU = WI DELOD EL SY S14) CE (NY EL: 2d) 
{ 
my Shost = $1; 
my Sport = $3 || 80; # “如果 存 在 ， 就 使 用 $3; 否则 默认 为 80 
my $path = $4 || "/"; # 如 果 存 在 ， 就 使 用 $4; 否则 默认 为 "/" 
print Hoste Shost\n"; 
print "Forts: Spert\n"s 
prant "Path: Spath\n"; 
else { 
print “Not an HITP URL\n"; 





“Ww 


验证 主机 名 


Validating a Hostname 

在 上 面 的 例子 中 ， 我 们 用 STV: ]+| 来 匹配 主机 名 。 不 过 ， 在 第 2 章 中 (二 76) 我 们 使 用 的 是 更 复杂 的 
[-a-z]+ (\[-a-z]+) *\. (comledul...jinfo) | 。 做 同样 的 事情 ， 复 杂 程 度 为 什么 会 有 这 么 大 的 差别 ? 

而 且 ， 虽 然 二 者 都 用 来 “匹配 主机 名 ”， 方 法 却 大 不 相同 。 从 已 知 文本 《例如 ， 从 现成 的 URL 中 ) 中 提 
取 一 些 信 息 是 一 回 事 ， 从 随机 文本 中 准确 提取 同样 信息 是 另 一 回 事 。 

而 且 ， 在 上 例 中 我 们 假设 ，‘http: /之 后 就 是 主机 名 ， 所 以 用 M: ]+| 来 匹配 就 是 理所当然 的 。 但 是 
在 第 2 章 的 例子 中 ， 我 们 使 用 正则 表达 式 从 随机 文本 中 寻找 主机 名 ， 上 所 以 它 必 须 更 加 复杂 。 

现在 从 另外 一 个 角 虚 来 看 主机 名 的 匹配 ， 我 们 可 以 用 正则 表达 式 来 验证 主机 名 。 也 项 是 说 ， 我 们 需要 
知道 ， 一 串 字 符 是 否 是 形式 规范 、 语 意 正 确 的 主机 名 。 按 规 宪 ， 主 机 名 由 点 号 分 隔 的 部 分 组 成 ， 每 个 部 分 
可 以 包括 ASCU 字符 、 数 字 和 和 连 字 符 ， 但 是 不 能 以 连 字 符 作 为 开头 和 结尾 。 所 以 ， 我 们 可 以 在 不 区 分 大 小 
写 的 模式 下 使 用 这 个 正则 表达 式 : “[a-z0-9]|[a-z0-9][-a-z0-9]x [a-z0-9]) 。 结 尾 的 后 级 部 分 
(‘comp”、‘edu*”、‘uk’ 等 ) 只 有 有 限 多 个 可 能 ， 这 在 第 2 章 的 例子 中 提 到 过 。 结 合 起 来 ， 下 面 的 正则 表达 式 
残 能 够 匹配 一 个 语意 正确 的 主机 名 : 











中 上 局 Dinux [|] www.linuxidce.com |] [] 


VB.NET 中 的 link 检查 程序 
下 面 的 程序 会 列 出 Html 变量 中 的 链接 : 


Imports System.Text.RegqularExpressions 


' 设置 循环 中 将 会 遇 到 的 正则 表达 式 

Dim A RRegex as Regex = New Regex ( 
"<a\b( ?<quts> [“*>]+)>(?<hink>.*?7)</a>", 
RegexOptions.IgqnoreCase) 

Dim GutsRegex as Regex = New Regex( _ 


"\b HREF (?# ‘href’ 属性 ae 
"\e* = VE (?# "=" TRAAZOFH )" & _ 
ae (?# HA... )" & 
e of Ne [een] ey) ee (2# ” 双 引 号 字符 事 和 
"i (?# 或 者 是 ... i 
" '(?<url>[*']*)! (?# Ba) 57H # ne = 
"| (?t RPMs os )" & p 
Wo Pe Le [O08 \ie F) (?# “其 他 文本 ， 二 
(24 fm g 


RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


' 现在 检查 'Html' 变量 ， 
Dim CheckA as Match = A Regex.Match (Html) 


' For each match within ... 
While CheckA.Success 
' 已 匹 配 <a> tag, MAKS URL 
Dim UrlCheck as Match = _ 
GutsRegex.Match (CheckA.Groups ("guts") .Value) 
If UrlCheck.Success 
' 已 经 匹配 完毕 ,得 到 URL/1l1ink 
Console.WriteLine("Url " & UrlCheck.Groups ("Url") .Value & 
" WITH LINK " & CheckA.Groups ("Link") .Value) 
End If 
CheckA = CheckA.NextMatch 
End While 


需要 注意 的 几 点 : 

e 在 VB.NET 中 使 用 正则 表达 式 ， 需 要 首先 执行 对 应 的 Imports HA), SMES 
应 当 导 入 的 库 文 件 。 

o 程序 中 使 用 了 (?#…)| 风 格 的 注释 , 因为 VB.NET 中 加 入 换行 符 很 不 方便 , 所 以 普 
通 的 “# 注释 会 延伸 到 下 一 个 换行 待 或 者 字符 串 的 结尾 〈 第 一 种 情况 即 意 味 着 正 
则 表达 式 剩 下 的 所 有 内 容 都 作为 注释 )。 为 了 使 用 正常 的 #……) 注释 , 请 在 每 一 行 的 
结尾 添加 gchr (10) (420). 

© 表达 式 中 的 每 个 双 引 号 都 需要 以 “""” 表示 (7103), 
两 个 表达 式 都 用 到 了 命名 捕获 ，Groups ("url") kt Groups (1) 和 Groups (2) 之 类 
RAH Linux[] [|] www.linuxidc.com [] [ 


人 


eB # 进行 不 区 分 大 小 写 的 匹配 
# 堆 个 或 多 个 据点 分 隔 的 部 分 
(2: [a-z0-9]\. | [a-z0-9] [-a-z0-9]*[a-z0-9]\. )+ 
# ”然后 是 结尾 的 后 级 部 分 ... 
(?: com|edu|gov|int|mil|net|org|biz|info|name|museum|coop|aero| [a-z] [a-z] ) 
> 
因为 存在 长 上 度 的 限制 ， 能 够 由 这 个 正则 表达 式 匹 配 的 可 能 并 不 是 合法 的 主机 名 : 每 个 部 分 不 能 超过 63 
个 字符 。 也 就 是 说 ，“[-a-z0-9] 关 | 应 该 改 为 [-a-z0-9]{0，61}| 。 
还 需要 做 最 后 的 改动 。 按 规定 ， 只 包括 后 级 的 主机 名 同样 是 语意 正确 的 。 但 实践 证 明 ， 这 些 “ 主 机 
名 ”不 存在 ， 但 是 对 于 两 个 字母 的 后 级 来 说 情况 可 不 是 如 此 。 例 如 ， 和 安哥拉 的 域名 ‘ai? 束 有 一 个 Web 服 务 强 
http: //ai/。 我 见 过 其 他 这 样 的 链接 : cc. co. dk. mm, ph, tj, tv#lltw. 
如 果 希 望 匹配 这 些 特殊 情况 ， 应 该 把 中 间 的 (3? : ...) +| 改 为 " (? : .…) 大 |: 


A 


(?i) # 进行 不 区 分 大 小 写 的 匹配 
# 索 个 或 多 个 据点 分 陪 的 部 分 
(2: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}[a-z0-9]\. )* 


# ”然后 是 结尾 的 后 级 部 分 ... 
(?: com|edu|gov|int|mil|net|org|biz|info|name|museum|coop|aero| [a-z] [a-z] ) 
5 
现在 它 可 以 用 来 验证 包含 主机 名 的 字符 串 了 。 因 为 这 是 我 们 想 出 的 与 主机 名 相关 的 三 个 正则 表达 式 中 
最 复 森 的 ， 你 也 许 会 想 ， 不 要 这 些 钠 点 ， 可 能 比 之 前 那个 从 随机 文本 中 提取 主机 名 的 表达 式 更 好 。 但 情况 
并 非 如 此 。 这 个 正则 表达 式 能 匹配 任意 双 字 母 单 词 ， 正 因为 如 此 ， 第 2 章 中 不 那么 精妙 的 正则 表达 式 的 实 
际 效 末 更 好 。 但 是 在 下 一 节 我 们 会 看 到 ， 东 些 情况 下 它 仍 然 不 够 完善 。 


在 真实 世界 中 提取 URL 





Plucking Out a URL in the Real World 

供职 于 Yahoo! Finance 时 ， 我 兽 写 过 处 理 收录 的 财经 新 闻 和 数据 的 程序 。 新 闻 通 钊 是 以 纯 文 本 格式 提 
供 的 ， 我 的 程序 将 其 转化 为 HTML 格式 以 便于 显示 《如果 你 在 过 去 10 年 中 曾经 在 http: //finance.yahoo.com 
浏 硕 过 财经 新 闻 ， 没 准 看 过 我 处 理 过 的 新 闻 ) 。 

因为 接受 的 数据 的 “格式 ”( 其 实 是 无 格式 ) 很 杂乱 ， 从 纯 文本 中 识别 (recognize) 出 hostname 和 URL 
又 比 验 证 (validate〉 它 们 困难 得 多 ， 这 任务 就 很 不 轻松 。 前 面 的 内 容 并 没有 体现 这 一 点 ， 在 本 节 ， 你 会 看 
到 我 在 Yahoo! 用 来 解决 这 个 问题 的 程序 。 

这 个 程序 从 文本 中 提取 几 种 类 型 的 URL 一 mailto、http、https 和 ftp。 如 果 我 们 在 文本 中 找 
到 ‘http: //”， 就 知道 这 肯定 是 一 个 URL 的 开头 ， 所 以 我 们 可 以 直接 用 http: //[-\w]+ Oww) + 来 匹 
配 主机 名 。 我 们 知道 ， 要 处 理 的 文本 肯定 是 ASCII 编 码 的 英文 字母 ， 所 以 完全 可 以 用 '-\w | 来 取代 '-a-z0- 
9| 。 Nw 同样 可 以 匹配 下 画 线 ， 在 某 些 系 统 中 ， 它 还 可 以 匹配 所 有 的 Unicode 字 符 ， 但 是 我 们 知道 ， 这 个 
程序 在 运行 时 不 会 遇 到 这 些 问 题 。 

不 过 ， UREL 通 名 不 是 以 http: //E 4 mailto: 开头 的 ， 例如 : 

...Visit us at www.oreilly.com or mail to orders@oreilly.com... 


在 这 种 情况 下 ， 我 们 需要 加 倍 小 心 。 我 在 Yahoo! 使 用 的 正则 表达 式 与 前 面 那 市 的 非 第 相似 ， 只 是 有 

















[| 日 Linux[| [|] www.linuxidc.com |] [] 


(?i: [a-z0-9] (?: [-a-z0-9]*[a-z0-9])? \. )+ # 子 域 名 Ss 
# .com 之 类 的 后 级 . 要 求 小 写 

(?-i: com\b 

| edu\b 

| BESS 

| org\b 

| gov\b 

| antet] Pa) VS # lint 或 者 .info 

| mil\b 

| net\b 

| name\b 

| museum\b 

| coop\b 

| aero\b 

| [a-z] [a-z]\b E FAAARA 

) 


在 这 个 正则 表达 式 中 ， 我 们 用 O is) 和 1'(? -i: ...)〉 | 用 来 规定 正则 表达 式 的 某 个 部 分 是 否 
区 分 大 小 写 CF 135) 。 我 们 希望 匹配 www.OReilly.com”， 但 不 是 ‘NT.TO’ 这 样 的 股票 代码 (NT.TO 是 北 电 
网 络 在 多 伦 多 证 券 交 易 市 场 的 代号， 因为 要 处 理 的 是 财经 新 闻 和 数据 ， 这 样 的 股票 代码 很 多 ) 。 按 规定 ， 
URL 的 结尾 部 分 (例如 ‘.conmy?)〉 可 能 是 大 写 的 ， 但 我 不 准备 处 理 这 些 情况 。 因 为 我 需要 保持 平衡 一 一 此 配 
期 望 的 文本 〈 尽 可 能 多 的 URL) ， 和 忽略 不 期 望 的 文本 (股票 代码 ) 。 我 希望 | O -i: ...) | 只 包括 国家 代 
码 ， 但 是 在 现实 中 ， 我 们 没有 过 到 大 写 的 URL 地 址 ， 所 以 不 必 这 么 做 。 

下 面 是 从 纯 文 本 中 查找 URL 的 框架 ， 我 们 可 以 在 其 中 添加 匹配 主机 名 的 子 表达 式 : 


\b 
# 匹配 开头 部 分 (proto://hostname， 或 直接 是 hostname ) 
# ftp://, http:// & https:// FAAP 
(ftp|https?) ://[-\w]+(\.\w[-\w] *) + 
| 
# 或 者 是 用 更 准确 的 子 表 达 式 找到 hostname 


full-hostname-regex 


e 


as 


# TAE E Ms,0 
> \d+ )? 


# 下 面部 分 可 能 出 现 ， 以 /开头 
( 
/ path-part 


)? 
我 还 没有 谈论 过 正则 表达 陈 的 path 路径》 部 分 ， 它 接 在 主机 名 后 面 ( 例 如 http: //www. 


5 ty. comLSararo99/r89ex/ 中 的 划 线 部 分 ) 。path 是 最 难 正 确 匹配 的 文本 ， 因 为 它 需 要 一 些 儿 
测 才 能 做 得 很 漂亮 。 我 们 在 第 2 章 说 过 ， 通 第 出 现在 URL 之 后 的 文本 也 能 被 作为 URL 的 一 部 分 。 例 如 : 
Read his comments at http: /www.oreilly.com/ask_tim/index.html.He... 我 们 观察 之 后 就 会 发 现 ， 
在 ‘index.html’ 之 后 的 句号 是 一 个 标点 ， 不 应 该 作为 URL 的 一 部 分 ,但 是 ‘in Re se 
部 分 。 四 qf finuxil {| www. aide coms || 


肉眼 很 容易 分 辨 这 两 种 情况 ， 但 程序 做 起 来 却 很 难 ， 所 以 必须 想 些 聪明 的 办 法 来 尽 可 能 好 地 解决 问 
题 。 第 2 草 的 例子 使 用 刻 序 环视 来 确保 URL 不 会 以 句 末 的 句号 结尾 。 我 在 Yahoo! Finance 写 程序 时 还 没有 这 
序 环 视 ， 所 以 我 用 的 办 法 要 复杂 的 多 ， 不 过 效果 是 一 样 的。 代码 在 下 一 页 。 
示例 5-1: 从 财经 新 闻 中 提取 URL 
\b 
# ”匹配 开头 部 分 (proto://hostname， 或 直接 是 hostname) 
( 
t ftp://、http:// 或 https:// 开头 部 分 
【| TI i/i- a] Yr *) + 
| 
# 或 者 是 用 更 准确 的 子 表达 式 找 到 hostname 
(?i: [a-z0-9] (?: [-a-z0-9]*[a-z0-9])? \. )+ # sub domains 
# .com 之 类 的 后 级 . 要 求 小 写 
(7-1: com\b 
| edu\b 
| biz\b 
| gov\b 
| 和 | ONE £ «Ane Rap ARES 
| MiLB 
| net\b 
| wares 
| [a-z] [a-z]\b E RFRA 
) 
) 
# 可 能 出 现 端口 号 
( Nat }? 


# ” 剩 下 的 部 分 可 能 出 现 ， 以 /开头 ... 
( 
/ 
# 虽然 很 复杂 ， 但 确实 管 
[了 
(2: 
Mre T a a NO | 
) * 
|? 
这 里 用 到 的 办 法 与 第 2 章 第 75 页 用 到 的 办 法 有 很 多 不 同 ， 比 较 起 来 也 很 有 意思 。 下 一 页 里 使 用 此 表达 式 
的 Java 程 序 详 细 介 绍 了 它 的 构造 。 
在 实际 生活 中 ， 我 怀疑 日 己 是 否 会 写 这 样 繁 林 的 正则 表达 式 ， 但 是 作为 取代 ， 我 会 建立 一 个 正则 表达 
式 “ 库 ibrary) ”， 需 要 时 取 用 。 这 方面 一 个 简单 的 例子 就 是 第 76 页 的 $HostnameRegex， 以 及 下 面 的 补充 
内 容 。 


[| 日 Linux[| |] www.linuxidc.com [| L 


扩展 的 例子 
Extended Examples 


下 面 的 几 个 例子 讲解 了 一 些 关 于 正则 表达 式 的 重要 诀 穷 。 讨 论 会 稍微 多 一 些 ， 关 于 解决 办 法 和 错误 思 
BS EA) a oe tH oe Be EG, eR ee IEEE SR 


在 Java 中 通过 变量 构建 正则 表达 式 


SEring SubDomain, = 《| 二 9 [73520-9] $ [a=-20=9]) "3 
String TopDomains = "(?x-i:com\\b \n" + 
‘ |edu\\b \n" + 
" |biz\\b \n" + 
" lint? tifoi \\b \n" + 
" |mil\\b \n" + 
ue |net\\b \n" + 
f |org\\b \n" + 
" | [a=2)] Ta-aJ\\b \n" + // country codes 
w) \n"; 
String Hostname = "(?:" + SubDomain + "\\.)+" + TopDomains; 
String NOT IN = "y" <> (PAADAL CAs Sa P-an"; 
String NOT END = "!.,?"; 
String ANYWHERE = *“([°" + NOT IN + NOT END + "J" 
String EMBEDDED = "[" + NOT END + "J" 
String UrlPath = "/"+ANYWHERE + "* ("+EMBEDDED+"+"+ANYWHERE+"+) *"; 
string Url = 
“ie \n"+ 
"o VAS \n"+4+ 
" ## mÆ hostname \n"+ 
n \n"+ 
t (人 
" | \n"+ 
à " + Hostname + " \n"+ 
" ) \n"+ 
" $ 可 能 出 现 端口 号 \n"+ 
” ArI SANGE )? ya" 
j \n"+ 
" + 下 面 的 部 分 可 能 出 现 ， 以 \ 开 头 
下 \n"+ 


1 le 
// 现在 把 正则 表达 式 编译 为 正则 对 象 
Pattern UrlRegex = Pattern.compile (Url); 


// 现在 准备 在 文本 中 应 用 ,时 找 url... 


Oe a A al Hn ux[] [| www.linuxidc.com [] [] 


Keeping in Sync with Your Data 

我 们 来 看 一 个 长 一 点 的 例子 ， 它 有 护 极 问 ， 但 很 清楚 地 说 明了 你 持 协 调 的 香 要 性 (同时 提供 了 一 些 你 
持 协 调 的 方法 ) 。 

假设 ， 需 要 处 理 的 数据 是 一 系列 连续 的 5 位 数 美 国 邮政 编 合 (ZIP Codes) ， 而 需要 提取 的 是 以 44 开 头 
的 那些 编码 。 下 面 是 一 点 抽样 ， 我 们 需要 提取 的 数值 用 粗 体 表 示 : 

03824531449411615213441829505344272752010217443235 

最 容易 想到 的 "did\d\d\d| ， 它 能 匹配 所 有 的 邮政 编码 。 在 Perl 中 可 以 用 @zips=mAd\d\d\d\d/g; 来 生成 
以 邮政 编码 为 元 素 的 list (为 了 让 这 些 例子 看 起 来 更 整洁 ， 我 们 假设 需要 处理 的 文本 在 Perl 的 默认 目标 变量 
$_ 中 ， 见 二 79) 。 如 果 使 用 其 他 语言 ， 也 只 需要 循环 调用 正则 表达 式 的 find 方法 。 我 们 关注 的 是 正则 表达 
式 本 号， 而 不 是 语言 的 实现 机 制 ， 所 以 下 面 继续 使 用 Perl。 

回 到 ddddd ， 下 面 提 到 的 这 一 点 很 快 就 会 体现 出 其 价值 ， 在 整个 解析 过 程 中 ， 这 个 正则 表达 式 任 
何 时候 都 能 够 轧 配 一 一 绝对 没有 传动 装置 的 驱动 和 重 试 (我 假设 所 有 的 数据 都 是 规范 的 ， 此 假设 与 具体 情 
况 密切 相关 )。 

很 明显 ， 把 “ddddvd | 改 为 `44\d\d\d | 来 查找 以 44 开头 的 邮政 编码 不 是 个 好 办 法 一 一 匹配 失败 之 
后 ， 传 动 装置 会 驱动 前 进 一 个 字符 ， 对 144...) 的 匹配 不 再 是 从 每 个 邮政 编码 的 第 一 位 开始 。 144\d\d\d | 会 
错误 地 [匹配 和 ...5314494116...”。 

当然 ， 我 们 可 以 在 正则 表达 式 的 开头 添加 \A| ， 但 是 这 样 只 能 对 付 一 行文 本 中 的 第 一 个 邮政 编码 。 我 
们 震 要 手动 保持 正则 引 敬 的 协调 ， 才 能 忽略 不 十 要 的 邮政 编码 。 这 里 的 关键 是 ， 要 跳 过 完整 的 邮政 编码 ， 
而 不 是 使 用 传动 装置 的 驱动 过 程 (bump-along) 来 进行 单个 字符 的 移动 。 

根据 期 望 你 持 匹 配 的 协调 性 

下 面 列 举 了 几 种 办 法 用 来 跳 过 不 需要 的 邮政 编码 。 把 它们 添加 到 正则 表达 式 '44\d\d\d | 之前， 可 以 获 
得 期 望 的 结 末 。 非 捕 获 型 括号 用 来 匹配 不 期 望 的 邮政 编码 ， 这 样 能 够 快速 地 略 过 和 它们， 找到 匹配 的 邮政 编 
人 码 ， 在 第 一 个 $1 的 捕获 括号 中 : 

[ (?:[A4]\d\d\d\d\\d[44]\d\d\d) * ... | 

这 种 硬 办 法 (brute-force method) 主动 略 过 非 44 开 头 的 邮政 编码 〈 当 然 ， 用 [1235-9]| BAR [M] 可 
能 更 合适 ， 但 我 之 前 说 过 ， 假 设 处 理 的 是 规范 的 数据 ) 。 注 意 ， 我 们 不 能 使 用 (? : [A4][A4]\dNdvd) 
| ， 因 为 它 不 会 思 配 (也 就 无 法 略 过 〉 43210 这 样 不 期 望 的 邮政 编码 。 

| (2:(?!44)\d\d\d\d\d) * .... | 

1X “PS TZ WET EMAA AY SBA. PA EZ SBP Ce al, (AA EURES HOR EEK 
一 样 。 比 较 这 两 段 摘 述 和 相关 的 正则 表达 式 丈 会友 现 ， 在 这 里 ， 期 望 的 邮政 编码 《〈 以 44 开 头 ) 导致 逆序 环 
ARC? ! 44) 失败 ， 于 是 略 过 俘 止 。 

| (2:\d\d\d\d\d) * ?..., 

这 个 办 法 使 用 忽略 优先 量词 ， 只 有 在 需要 的 时 候 才 略 过 未 些 文本 。 我 们 把 它 放 在 真正 需要 匹配 的 正则 
表达 式 前 面 ， 所 以 如 果 那 个 表达 式 失败 ， 它 就 会 匹配 一 个 邮政 编码 。 忽 略 优先 ”(...) 大 ? | 导致 这 一 切 的 
发 生 。 因 为 存在 忽略 优先 量词 ， (2: \dd\d\d\d) | 甚至 都 不 会 尝试 匹配 ， 在 后 面 的 表达 式 失败 之 前 。 星 
号 人 确 你 了 ， 它 会 重复 失败 ， 直 到 最 终 找到 匹配 文本 ， 这 样 束 能 只 跳 过 我 们 希望 跳 过 的 文本 。 

HEIRS IATA | (44\d\d\d) | 合 起 来 ， 就 得 到 : 


@zips=m/ (?:\d\d\d\d\d)*? (44\d\d\d)/g; 


它 能 够 提取 以 44 开 头 的 邮编 ， 而 主动 跳 过 其 他 的 邮编 在“@array=m/.…/g* 的 情况 下 ，Per 会 用 每 次 尝 
试 中 找到 的 匹配 文本 来 填充 这 个 数组 ， 坟 311) 。 这 个 表达 式 能 够 重复 应 用 于 字符 串 ， 因 为 我 们 知道 每 次 匹 
配 的 “起 始 匹配 位 置 都 是 某 个 邮政 编码 的 开头 位 置 ， 也 就 保证 下 一 次 匹配 是 从 一 个 邮政 编码 的 开始 ， 这 正 
是 正则 表达 式 期 望 的 。 

不 匹配 时 也 应 当 保证 协调 性 

我 们 是 否 能 保证 ， 每 次 正则 表达 式 都 在 邮政 编码 字符 串 的 开头 位 置 应 用 ? 显然 不 是 ! 我 们 手动 跳 过 了 


不 符合 要 求 的 邮政 编码 ， 可 一 旦 不 需要 继续 匹配 ， 南 轮 瑟 配 打 哆 宰 局 身 然 视 是 弛 动 计 稳 和 大 请 ec. 议 赚 社 作 让 



































从 邮政 编码 子 从 串 之 中 的 东 个 位 时 开始 一 一 我 们 的 方法 不 能 处 理 这 种 情况 。 


再来 看 数据 样本 : 
03824531449411615213441829503544272 7 5 2 010217443235 


匹配 的 代码 以 粗 体 标注 (第 三 组 不 符合 要 求 ) ， 主 动 跳 过 的 代码 以 下 画 线 标注 ， 通 过 驱动 过 程 - 重 试 略 
过 的 字符 也 标记 出 来 。 在 44272 匹 配 之 后 ， 目 标 文 本 中 再 也 找 不 到 匹配 ， 所 以 本 轮 答 试 补 各 失败。 但 总 的 答 
试 并 没有 宣告 失败 。 传 动机 构 会 进行 驱动 ， 从 字符 串 的 下 一 个 字符 开始 应 用 正则 表达 式 ， 这 样 束 破坏 了 协 
调 性 。 在 第 四 次 驱动 之 后 ， 正 则 表达 式 略 过 10217， 错 误 地 匹配 44323。 

如 果 在 字符 串 的 开头 应 用 ， 这 三 个 表达 式 都 没有 问题 ， 但 是 传动 装置 的 驱动 过 程 会 破坏 协调 性 。 如 末 
我 们 能 取消 驱动 过 程 ， 或 者 你 证 驱动 过 程 不 会 添 抹 烦 ， 问 题 束 解决 了 。 

办 法 之 一 是 禁止 驱动 过 程 ， 即 在 前 两 种 办 法 中 的 ” (44\d\d\d) | 之 后 添加 ? | ， 将 其 改 为 匹配 优先 的 
可 选项 。 这 样 ， 刻 意 安排 的 1 (3? : C2 ! 44) \d\d\d\d\d) *...) BR! C? : [A4]NddddNd[A4]NdNdNd 
类...| 就 只 会 在 两 种 情况 下 停止 : 发生 符合 要 求 的 匹配 ， 或 者 邮政 编码 字符 串 结束 (这 也 是 此 方法 不 适用 
于 第 三 个 表达 式 的 原因 ) 。 这 样 ， 如 采 存 在 符合 要 求 的 邮政 编码 ， | (44\d\d\d) ? | 就 能 区 配 ， 而 不 会 强 
担 回 济 。 

这 个 办 法 仍然 不 够 完善 。 诛 因 之 一 是 ， 即 便 目 标 字 符 串 中 没有 符合 要 求 的 邮政 编码 ， 也 会 匹配 成 功 ， 
接 下 来 的 处 理 程 序 会 变 得 更 复杂 。 不 过 ， 其 优点 在 于 速度 很 快 ， 因 为 不 需要 回调 ， 也 不 需要 传动 装置 进行 
任何 驱动 过 程 。 

使 用 \G 保 证 协调 

更 通用 的 办 法 是 在 这 三 个 表达 式 末尾 添加 NG) 02130) 。 因 为 每 个 表达 式 的 每 次 匹配 都 以 符合 要 求 
的 邮政 编码 结尾 ， 下 次 匹配 开始 时 就 不 会 进行 驱动 。 而 如 果 有 驱动 过 程 ， 开 头 的 \G| 会 立刻 导致 匹配 失 
败 ， 因 为 在 大 多 数 流 派 中 ， 只 有 在 未 及 生 驱 动 过 程 的 情况 下 ， 它 才能 成 功臣 配 (但 在 Ruby 和 其 他 规定 
AG) 表示 “本 次 匹配 起 始 位 置 ” 的 流派 中 不 成 立信 131) 

所 以 第 二 个 表达 式 就 变 成 了 : 

@zips = m/\G(?: (?!44) \d\d\d\d\qd) * (44\d\d\qd) /g; 


匹配 之 后 不 需要 进行 任何 特殊 检查 。 

本 例 的 意义 

我 皮 先 承认 ， 这 个 例子 有 后 极 澳 ， 不 过 ， 它 包含 了 许多 你 证 正则 表达 式 与 数据 协调 性 的 知识 。 如 果 现 
实生 活 中 需要 处 理 这 样 的 问题 ， 我 可 能 不 会 完全 用 正则 表达 式 来 解决 。 我 会 直接 用 \d\d\d\d\d, 来 提出 每 个 
邮政 编码 ， 然 后 检查 它 是 个 以 “44 开头 。 在 Penl 中 是 这 样 : 


@zips = ( J} # ”确保 数组 为 空 























while (m/(\d\d\d\d\d)/g) { 
Şzip = $1; 
if (substr(Szip, 0, 2) eq “44™") 4 
push Gzips, Saip; 
} 
} 


xt AG | 有 兴趣 的 读者 请 参考 132 页 的 补 序 内容， 尽管 本 书写 作 时 只 能 举 Perl 的 例子 。 
解析 CSV 文 件 


Parsing CSV Files 
解析 CSV GS AIE) 文件 有 点 厂 烦 ， 因 为 每 个 程序 都 有 目 己 的 CSV 文 件 格式 。 首 先 来 看 如 何 解析 
Microsoft Excel 生 成 的 CSV 文 件 ， 然 后 再 看 其 他 格式 〈 注 3) 。 笠 运 的 是 ，Microsoft 的 格式 是 最 简单 的 。 以 


有 逗号 分 隅 的 什 要 么 和 是 “纯粹 的 ” CULE FEES LED RU) A wir AUK dort) i 


对 双 引 号 表示 )。 














下 面 是 个 例子 : 


Ten Thousand, 10000, 2710, , "10, 000", "Its " "10 Grand" " ，baby"，10K 这 一 行 包含 七 
个 字段 Cfields) : 


Ten*Thousand 

10000 

o2 7108 

空 字段 

10,000 

Le se" Lieoranda™”,“baby 
10K 





为 了 从 此 行 解 析出 各 个 字段 ， 我 们 的 正则 表达 式 需 要 能 够 处 理 两 种 格式 。 非 引号 格式 包含 引号 和 逗号 
之 外 的 任何 字符 ， 可 以 用 ITA", J+) 匹配 。 

双 引 号 字段 可 以 包含 有 逗号、 空格， 以 及 双 引 二 之 外 的 任何 字符 。 还 可 以 包 舍 连 在 一 起 的 两 个 双 引 号 。 
所 以 ， 双 引号 字段 可 以 由 " ..." | 之 间 任 意 数量 的 [A"]" "| 匹配 ， 也 就 是 1" (? Any") x 
" (为 效率 考虑 ， 我 们 可 以 使 用 固化 分 组 0? >...) | 来 替代 O: .…) | ， 不 过 这 个 话题 留 到 下 一 
#259) 。 

pects, TIA", J" (22 [A] "O x* "| 能 够 匹配 一 个 字段 。 这 可 能 有 点 难看 懂 ， 下 面 我 们 
给 出 宽松 排列 〈 嗓 111) 格式 : 


# “引号 和 过 号 之 外 的 文本 . . . 
np dl 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # ACLEILG] > 
(pe LSJ] | ee Js 
wot 结束 双 引 号 
现在 这 个 表达 陈 可 以 实际 应 用 到 包含 CSV 文 本 行 的 字符 串 上 了 ， 但 如 有 果 我 们 硕 望 真 正 利 用 匹配 结果 ， 
束 应 该 知道 具体 是 哪个 多 选 分 文 死 配 了 。 如 果 是 双 引 亏 字 符 串 ， 束 需要 去 揉 首尾 两 疹 的 双 引 号 ， 把 其 中 紧 
Pea IPAS OS Ss HRA PS So 
我 能 想到 的 办 法 有 两 个 。 其 一 是 检 奏 匹配 结果 的 第 一 个 字符 是 否 双 引号 ， 如 果 是 ， 则 去 把 第 一 个 和 最 
后 一 个 字符 〈 双 引号 ) ， 然 后 把 中 间 的 4" "ORAS"? AA fa, (A OER A RA A E fa 
单 。 如 果 我 们 给 捕获 字段 的 每 个 子 表 达 式 琴 加 捕获 型 括号 ， 可 以 在 匹配 之 后 检查 各 个 分 组 的 值 : 


# S| > Fei S ZINA... 





(人 【| 天 十 } 
# 1... RAR... 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
( ab [ a | Th Tr J” ) 


" # 结束 双 引 号 
如 果 是 第 一 个 分 组 捕获 ， 则 不 需要 进行 任何 处 理 ， 如 果 是 第 二 个 分 组 ， 则 只 需要 把 " "BRAS "OB 
HY 
下 面 给 出 Perl 的 程序 ， 稍 后 〈 找 出 某 些 bug 之 后 ) 给 出 Java 和 VB.NET 在 第 10 章 给 出 PHP 的 程序 号 


80) 。 FA ] 虽 序 ， 假设 妆 VF li ZA i 结 LHe, ITAA p= eh FR Bt a 
Ph yy EPen BYE: GAME Sine’ HE TT Linux) wide com T 





while (Sline =~ m{ 
# 45] > FIZ SSI TA... 
e [e+ 2 
ee}, E 

| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
( | ] ~= PSG 
' # 结束 双 引 号 
} gx) 


if (defined $1) { 
Sfield = $1; 
} else { 
STriela = $2: 
Sfield =~ s/""/"/g; 
} 
print "[$field]"; # 输出 $Sfield 供 调试 
现在 可 以 处 理 Sfieldq J... 
} 

将 其 应 用 于 测试 数据 ， 结 果 为 : 

[(Ten:-Thousand][10000][-2710-][10,000][It's- " 10:Grand " ,-baby][10K] 

看 来 没 问 题 ， 但 不 外 的 是 它 不 会 输出 为 空 的 第 四 个 字段 。 如 果 “ 处 理 $field” 是 将 字段 的 值 存 入 数组 ， 完 
成 后 访问 数组 的 第 五 个 元 素 得 到 第 五 个 字段 (“10，000”) 。 这 显然 不 对 ， 因 为 数组 的 元 素 与 空 字段 不 对 
DE 

想到 的 第 一 个 办 法 是 把 TA", 14) AAT", Jx ， 这 看 来 是 显而易见 的 ， 但 它 正 确 吗 ? 

测试 一 下 ， 下 面 是 结果 : 

(Ten: Thousand ][][10000][][-2710-][J[J[J[10,000][][][It's: " 10:Grand " ，... 

吐 ， 现 在 出 来 了 一 堆 空 字段 ! 仔细 检查 检查 ， 就 不 会 这 么 吃惊 。 1(...〉* | 的 匹配 可 以 不 占用 任何 字 
伯 。 如 果真 的 过 到 空 字 段 ， 确 实 能 匹配 ， 那 么 考虑 第 一 个 字段 匹配 之 后 的 情况 呢 ， 此 时 正则 表达 式 从 


‘Ten*Thousand ,10000…… a capes 加 7 . N 

j 开始 应 用 。 如 果 表 达 式 中 没有 元 素 可 以 匹配 逗号 〈( 束 本 例 来 说 )， 束 会 
发 生长 度 为 0 的 成 功 匹 配 。 实 际 上 ， 这 样 的 匹配 可 能 有 无 穷 多 次 ， 因 为 正则 引擎 可 能 在 同一 位 置 重复 这 样 
的 匹配 ， 现 代 的 正则 引擎 会 强迫 进行 驱动 过 程 ， 所 以 同一 位 置 不 会 发 生 两 次 长 度 为 0 PPE AC (S131) 。 所 
以 每 个 有 效 匹 配 之 间 还 有 一 个 空 罗 配 ， 在 每 个 引号 字段 之 前 会 多 出 一 个 空 见 配 〈( 而 且 数 组 末尾 还 会 有 一 个 
25 匹配 ， 只 是 此 处 没有 列 出 来 ) 。 

分 解 驱 动 过 程 

要 解雇 问题 ， 我 们 束 不 能 依赖 传动 机 构 的 驱动 过 程 来 越过 去 号 。 所以， 我 们 需要 手工 来 控制 。 能 想到 
的 办 法 有 两 个 : 

1. 手 工 罗 配 豆 号。 如 果 采 取 此 办 法 ， 需 要 把 辟 杞 作为 普通 字段 轧 配 的 一 部 分 ， 在 字符 串 中 “天 步 (pace 
Ourselves) ”。 

2. 硝 保 每 次 匹配 都 从 字段 能 够 开始 的 位 置 开 始 。 字 段 可 以 从 行 首 ， 或 者 是 逗 亏 开始 。 

可 能 更 好 的 办 法 是 把 两 者 结合 起 来 。 从 第 一 种 办 法 《匹配 运 号 本 有 身 ) 出 发 ， 只 需要 保证 逗号 出 现在 第 
一 个 字段 之 外 的 所 有 字段 开头 。 或 者 ， 保 证 逐 号 出 现在 最 后 一 个 字段 之 外 的 所 有 字段 的 末尾 。 可 以 在 表达 
式 前 面 添加 [|，，， 或 者 后 面 添加 [8j，，， 用 括号 控制 范围。 

FERN TEAS, WTB: 
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和 
(?: 
# “引号 和 喜与 之 外 的 文本 . . . . 
(Ll "bs } 
# .. .或 者 是 .. 
| 
# ... 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引 号 
| 
" p BE ILS] 
) 
看 起 来 它 应 当 没 错 ， 但 实际 的 结果 却 是 : 
[Ten-Thousand][10000][-2710- ][][][000][][-baby][10K] 
而 我 们 期 望 的 是 : 
[Ten:Thousand][10000][:2710:][]J[10,000][It's: " 10*Grand " ,-baby][10K] 
问题 出 在 哪里 昵 ? 似乎 是 双 引 号 字段 没有 正确 处 理 ， 所 以 问题 出 在 它 身 上 ， 对 吗 ? 不 对 ， 问 题 在 前 
Ho 或 许 176 页 的 告 诚 有 所 帮助 : 如 条 多 个 多 选 分 文 能 够 在 同一 位 置 匹 配 ， 必 须 小 心地 排列 顺序 。 第 一 
个 多 选 分支 [A" ，]x | 不 需要 匹配 任何 字符 就 能 成 功 ， 除 非 之 后 的 元 素 强迫 ， 否 则 第 二 个 多 选 分 支 不 会 
获得 答 试 的 机 会 。 而 这 两 个 多 选 分 文 之 后 没有 任何 元 素 ， 所 以 第 二 个 多 选 分 文 永 远 不 会 得 到 答 试 的 机 会 ， 
这 就 是 问题 所 在 ! 
哇 ， 现 在 我 们 已 经 找到 了 问题 所 在 。OK， 交 换 一 下 多 选 分 支 的 顺序 : 
Cre Tn 
(2: # 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) . . . 
" # (起 始 双 引号 ) 
L eee iret I 7 Fe 
" # (起 始 双 引号 ) 





| 
# ... 或 者 是 引号 和 吉 号 之 外 的 文本 ... 
L pa 
) 

对 了 ! 至 少 对 测试 数据 来 说 是 对 了 。 如 采 数 据 变 了 ， 还 是 这 样 吗 ? AS NE EE TM 
最 保险 的 办 法 就 是 以 完整 测试 作为 基础 的 思考 ， 故 可 以 用 \G | 来 确保 每 次 匹配 从 上 一 次 匹配 结束 的 位 置 开 
始 。 考 虑 到 构建 和 应 用 正则 表达 式 的 过 程 ， 这 样 做 应 该 绝对 没 问题 。 如 果 在 表达 式 开 始 添加 NG ， 就 会 禁 
止 引擎 的 驱动 过 程 。 我 们 硕 望 这样 修 改 不 会 出 问题 ， 但 是 结束 并 非 如 此 。 之 前 输出 

[Ten-Thousand][10000][-2710- ][][]LO00][][-baby][10K] 

的 正则 表达 却 添 加 \G 之 后 ， 得 到 

[Ten:-Thousand][10000][-2710-][][] 

WR RA HAA, AFERE. 
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CSV Processing in Java 


这 里 有 一 个 使 用 Sun 的 java.util.regex Mat CSV 的 例子 。 这 段 程序 着 眼 于 简洁 的 、 
更 有 效 的 版 本 一 一 第 8 章 ($401) 将 会 介绍 。 


import java.util.regex.*; 


String regex = // 把 双 引 号 字段 存 入 group (1)、 非 引号 字段 存 入 group (2) 


Pyre Ss” Le) \n"+ 
a N+ 
" # 要 么 是 双 引 号 字段 ... \n"4+ 
- # 字段 起 始 双 引号 be 
— a fe Dee fe re] WT 
= # 字段 结束 双 引 号 \n"+ 
" |# 16. HAR... \n"+ 
j # 4b 5) aRig SOAR... \n"+ 
* | PA) \n"+ 
") \n"; 


// 创建 使 用 上 面 正 则 表达 式 的 matcher， 暂 时 不 指定 需要 应 用 的 文本 
Matcher mMain = Pattern.compile( regex, Pattern.COMMENTS) .matcher ("") ; 


// 为 "" &lee—A matcher, PFRRELEZSAHTK 


Matcher mQuote = Pattern.compile("\"\"") .matcher ("") ; 


// 上 面前 是 准备 工作 ,下 面 的 代码 逐 行 处 理 文 本 
mMain.reset( line); // 下 面 处 理 line 中 的 CSV 文本 
while ( mMain.find()) 
{ 
String field; 
if ( mMain.start(2) >= 0) 
field = mMain.group (2); // 非 引 号 字段 ， 直 接 使 用 
else 
// 引号 字段 ， 替 换 其 中 的 成 对 双 引 号 
field = mQuote. reset (mMain.group(1)).replaceAl1l("\""); 
/7 ARFA.: 
System.out.printin("Field [" + field + ™)]"); 


另 一 个 办 法 
本 节 的 开头 提 到 有 两 种 办 法 正确 匹配 各 个 字段 。 之 二 是 确保 匹配 只 能 在 容许 出 现 字段 的 地 方 开始 。 从 
表面 上 看 ， 这 类 似 于 添加 [|，| ， 只 是 使 用 了 逆序 环视 ' (? <=A|，) | 。 
不 幸 的 是 ， 按 照 第 3 章 C133 meee, e Eih dioa eini L 


视 ， 所 以 此 方法 可 能 无 法 使 用 。 如 果 问 题 在 于 长 度 可 变 ， 我 们 可 以 把 O <= 和 |，) | 替换 为 ”(? A 
(? <=, ) ) | ， 但 是 相 比 第 一 种 办 法 ， 它 太 麻 烦 了 。 而 且 ， 它 仍然 依赖 传动 装置 的 驱动 过 程 来 越过 过 
号 ， 如 果 别 的 地 方 出 了 什么 差错 ， 它 会 容许 在 和 ..." 10，,_000 " .. 2 处 的 匹配 。 总 的 来 说 就 是 ， 不 如 第 一 种 
办 法 保险 。 

不 过 我 们 可 以 略 施 小 计 一 一 要 求 匹配 在 逗号 之 前 〈 或 者 是 一 行 结束 之 前 ) 结束 。 在 表达 式 结尾 添加 
C? =$|，) | 可 以 确保 它 不 会 进行 错误 的 匹配 。 实 际 生活 中 ， 我 会 这 样 做 吗 ? 直率 地 说 我 觉得 第 一 种 方 
法 很 合用 ， 所 以 遇 到 这 种 情况 我 可 能 不 会 采取 第 二 种 办 法 ， 不 过 如 果 需 要 ， 这 技巧 却 是 很 有 用 的 。 

进一步 提高 效率 

尽管 在 下 一 章 之 前 都 不 会 谈论 效率 ， 但 对 于 支持 固化 分 组 〈 嗓 139) 的 系统 ， 我 还 是 愿意 在 这 里 给 出 提 
高 效率 的 修改 : 把 匹配 双 引 号 字段 的 子 表达 式 从 CG? : AY" x AAT O Sp") jo 
下 一 页 用 VB.NET 的 例子 做 了 说 明 。 

如 果 像 Sun 的 Java regex package 那 样 支持 占有 优先 量词 (142)〉 ， 也 可 以 使 用 占有 优先 量词 。Java 
CSV 程 序 的 补充 内 容 说 明了 这 一 点 。 

这 些 修改 背后 的 道理 会 在 下 一 章 讲 解 ， 最 终 我 们 会 在 271 页 给 出 效率 最 高 的 办 法 。 

其 他 CSV 格 式 
ene 因为 它 古 Microsoft 的 CSV 格 式 ， 但 其 他 程序 可 能 有 不 同 格 式 ， 我 见 过 的 
情况 还 有 : 

e 使 用 任意 字符 ， 例 如 '; ' 或 者 制 表 符 作 为 分 隔 。〈 不 过 这 样 名 字 还 能 叫 “ 喜 号 分 隔 值 ? 吗 ? ) 

e 容 许 分 隔 符 之 后 出 现 空格 ， 但 不 把 它们 作为 值 的 一 部 分 。 

oF REE SIS CONN " ;而 不 是 ‘"" :类 表示 值 内 部 的 引号 ) 。 通 常 这 意味 着 反 和 斜 线 可 以 在 任 
何 字 符 前 出 现 〈 并 忽略 ) 。 

这 些 变化 都 很 容易 处 理 。 第 一 种 情况 只 需要 把 逗号 蔡 换 为 对 应 的 分 隔 符 ， 第 二 种 只 需要 在 第 一 个 分 隔 
符 之 后 添加 \sx | ， 例 如 以 C2: A, sx) | 开头 。 

第 三 种 情况 ， 我 们 可 以 用 之 前 的 办 法 C198), A" "| BRA TP" TIN 。 当 然 ， 我 们 
必须 把 后 面 的 /"" /" /g 改 为 更 通用 的 SN C) /$1/g， 或 者 对 应 语言 中 的 代码 。 














-< 
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VB.NET 的 CSV 处 理 


Imports System.Text.RegularExpressions 


Dim FieldRegex as Regex = New Regex( _ 
Weeder " 
ele " 
" (2# 要 么 是 双 引 号 字段 ...) J 
" mon (?# 字段 起 始 双 引 号 ) " 
a go oe Ye | je | i 
" mone (?# 字段 结束 双 引 号 ) " 


” (ee eee OE pew) 


" (2# ... 非 引 号 非 过 号 文本 ...) 


m ( kiia " 


RY hme me Re me me me Re 


" )", RegexOptions.IgnorePatternWhitespace) 
Dim QuotesRegex as Regex = New Regex(" "" "" ") ' 双 引 


< 
4y 
a 
at 


Dim FieldMatch as Match = FieldRegex.Match (Line) 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(1).Success 
Field = QuotesRegex.Replace(FieldMatch.Groups(1l).Value, """") 
Else 
Field = FieldMatch.Groups (2) .Value 
End If 


Console.WriteLine("({" & Field & "]") 
' 现在 可 以 处 理 'Field' 


FieldMatch = FieldMatch.NextMatch 
End While 
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第 6 草 打造 高 效 正 则 表达 陈 

Crafting an Efficient Expression 

Perl, Java, .NET. Python#IPHP 《〈 这 里 没有 列 全 ， 其 他 语言 请 参考 第 145 页 的 表格 ) 使 用 的 都 是 表达 
式 主 导 的 NFA 引 擎 ， 细 微 的 改变 束 可 能 对 匹配 的 结果 及 方式 产生 重大 的 影响 。DEFA 中 不 存在 的 问题 ， 对 
NFA 来 说 却 很 重要 。 因 为 NFA 引 擎 容许 用 户 进 行 精确 控制 ， 所 以 我 们 可 以 用 心 打 造 〈 译 注 1) 正则 表达 
式 ， 但 对 不 询 悉 的 人 来 说 ， 这 样 可 能 会 市 来 碎 烦 。 本 草 讲 解 的 束 是 调 校 正则 表达 式 的 诀 轩 。 

调 校 表达 式 时 需要 考虑 的 两 个 因 系 是 准确 性 和 效率 : 精确 匹配 我 们 需要 的 文本 ， 不 包 舍 多 余 的 内 容 ， 
而 且 速 度 要 快 。 第 4 草 和 第 5 章 探 讨 了 准确 性 ， 现 在 我 们 来 考察 NFA 引 人 擎 的 效率 ， 以 及 如 何 有 效 地 利用 这 些 
知识 〈 我 们 会 在 合适 的 时 候 提 到 DEFA 的 问题 ， 不 过 本 章 主要 关注 的 还 是 基于 NEFA 的 引擎 ) 。 总 的 来 说 ， 天 
键 在 于 彻底 理解 回溯 背后 的 过 程 ， 学 习 些 技巧 来 避免 可 能 的 回调 。 在 深入 了 解 了 处 理 机 制 的 细节 之 后 ， 旋 
者 不 但 能 够 把 匹配 的 速度 提 到 最 高 ， 写 更 复杂 的 正则 表达 式 时 也 会 更 有 信心 。 

AS Ft AY 

ANS Vea We eee, ASSES CRA EE, Aa EMA SLAA, E 
gp RRA E Ga YES DLAC 2a], A SE Pe rey AN PG ES. AJ EH ee eS LA A RRE E 
施 ， 它 们 可 能 对 效率 有 相当 程度 的 实质 性 影响 ， 还 要 讲解 ， 针 对 具体 实现 方式 ， 如 何 构 建 最 合适 的 正则 表 
达 式 。 最 后 ， 我 会 做 个 上 总结， 传授 一 些 终极 技 巧 ， 来 构建 快 如 雷 仁 的 NFA 表 达 陈 。 

MAR- El 

RITKE EPT RE TEHERANA BUA TL. EDEN TE WU RETA SR CRIN, R 
有 时 会 列 出 正则 引擎 在 匹配 过 程 中 进行 的 独立 测试 Gindividual test) 的 次 数 。 如 果 用 正则 表达 式 marty | 
匹配 smarty， 一 共 会 进行 6 次 独立 测试 ， 首 先是 m 对 s (匹配 失败 )， 然 后 是 1m| Hm, al 对 a， 依 次 继 
续 。 我 通 种 会 给 出 回 蛮 的 次 数 《〈 本 例 中 回调 次 数 为 0， 不 过 ， 正 则 引擎 的 传动 装置 必然 会 在 第 二 个 字符 处 重 
试 正 则 表达 式 ， 这 或 许可 以 算 作 一 次 回 渊 ) 

之 所 以 要 列 出 这 些 数字 ， 并 不 是 为 表明 精确 性 ， 而 是 因为 它们 比 * 许 多 ” “少量 “多 次 ”“ 更 
好 ”、“ 不 太 多 ”之 类 更 为 准确 。 我 的 意思 不 是 说 ， 在 NFA 上 使 用 正则 表达 式 需 要 精确 地 考察 测试 和 回溯 的 次 
数 ， 我 只 是 希望 让 读者 知道 这 些 例子 的 相对 优 务 。 

另 一 个 重要 的 问题 是 ， 你 必须 意识 到 这 些 “ 精 确 ” 的 数字 可 能 根据 工具 的 不 同 而 有 上 所 不 同 。 我 期 望 谈 者 
能 够 知道 ， 它 只 是 针对 具体 例子 的 、 相 对 的 粗略 表现 。 不 同 工 具 之 间 的 一 个 重要 区 别 融 是 ， 它 们 可 能 使 用 
的 优化 措施 不 同 。 如 果 能 够 预先 判断 目标 字符 串 基 本 无 法 匹配 〈 例 如 目标 字符 串 缺 少 一 个 引擎 能 够 预知 
的 ， 匹 配 成 功 必 须 的 字符 ) ， 下 够 聪明 的 实现 方式 可 以 完全 不 应 用 正则 表达 式 。 我 在 本 章 讨 论 了 这 些 重 要 
的 优化 措施 ， 不 过 普通 原理 比 具 体 问 题 更 为 重要 。 

传统 型 NFA 还 是 POSIX NFA 

在 分 析 效 紊 时， 一 定 不 要 忘记 所 使 用 工具 的 引擎 类 型 传统 型 NFA 还 是 POSIX NFA。 下 一 市 中 我 们 会 
看 到 ， 有 些 问题 只 对 某 种 引 敬 存在 。 有 的 改变 可 能 对 其 中 之 一 没有 影响 ， 对 男 一 个 却 有 极 大 的 有 影响。 还 是 
那 句 话 ， 理 解 基本 原理 ， 就 能 应 付 各 种 情况 。 
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典型 示例 


A Sobering Example 

首先 来 看 一 个 真正 体现 回溯 和 效率 的 重要 性 的 例子 。 在 198 页 ， 我 们 用 VIP" D> x "| 来 匹配 
引号 字符 串 ， 其 中 容许 出 现 转 义 的 双 引 号 。 这 个 表达 式 没 有 错 ， 但 如 有 末 我 们 使 用 NFA 引 擎 ， 对 每 个 字符 都 
应 用 多 选 结构 的 效率 融会 很 低 。 对 字符 串 中 每 个 “正常 ”〈 非 转 义 、 非 引用 ) 的 字符 来 说 ， 这 个 引擎 需要 测 
试 \ | ， 遇 到 失败 后 回溯 ， 最 终 由 A" | 匹配 。 如 果 效 率 不 容 忽 视 ， 就 应 该 做 些 改动 来 加 快 匹 配 速度 。 


稍 加 修改 一 和 爷 迈 最 好 使 的 腿 


A Simple Change—Placing Your Best Foot Forward 

对 于 一 般 的 双 引 号 字符 串 来 说 ， 普 通 字 符 的 数量 比 转 义 字符 要 多 ， 一 个 简 蛙 的 改动 丈 是 调换 两 个 多 选 
分 支 的 顺序 ， 把 中 IAN"]| BB) 之 前 。 这 样 ， 只 有 在 遇 到 字符 串 中 的 转 义 字符 时 才 会 按照 多 选 结构 进行 
器 沛 (还 有 一 次 回溯 是 星 号 无 法 匹配 引起 的 ， 此 时 所 有 的 多 选 分 文 痢 匹配 失败 ， 所 以 整个 多 选 结 构 无 法 罗 
Ac) 。 图 6-1 说 明了 其 中 的 过 卉 。 季 头 数 量 的 减少 ， 说 明 第 一 个 多 选 分 文 的 成 功 匹 配 次 数 增 加 了 ， 也 就 旦 说 
回调 的 次 数 减少 了 。 








正则 表达 式 


ists 


"(NNE|C*"\\1)*"; "20x30 likeness" 


EE 
: 4 4 , 


{多 选 结构 回溯 发 生 的 位 置 





图 6-1: 多 选 分 支 排列 顺序 的 影响 (传统 型 NFA) 
请 从 下 面 几 个 方面 评价 这 个 修改 : 
e 哪 种 引 警 从 中 获 益 ?传统 型 NFA， 或 者 POSIX NFA， 或 是 两 者 ? 
e 什 么 情况 下 ， 这 种 修改 带 来 的 收益 最 大 ? 在 文本 能 够 风 配 时 ， 无 法 匹配 时 ， 还 是 所 有 了 时候 。 
o 请 思考 这 些 问 题 ， 翻 到 下 一 页 查看 答案 。 在 阅读 下 一 节 以 前 ， 务 必 理 解答 案 〈 及 原因 ) 。 


效率 vs 准确 性 


Efficiency Versus Correctness 

为 提高 效率 修改 正则 表达 却 时 最 需要 考 碟 的 问题 征 ， 改 动 是 侣 会 影响 匹配 的 准确 性 。 像 上 面 那样 重新 
安排 多 选 分 支 的 顺序 ， 只 有 在 排序 与 匹配 成 功 无 关 时 才 不 会 影响 准确 性 。 前 一 章 出 现 的 "CNIIA"]) * 
"| 02197) 的 例子 是 有 缺陷 的 。 如 来 正则 表达 式 只 需要 (should〉 应 用 于 格式 正确 的 字符 串 ， 此 问题 水 
远 也 不 会 骏 露 出 来 。 如 条 认为 这 个 表达 去 很 不 错 ， 改 动 的 确 提高 了 效率 ， 我 们 束 会 过 到 真正 的 问题 。 区 换 
多 选 分 支 ， 把 1[^" ]| 放 在 前 面 ， 避 免 表 达 式 进行 不 正确 的 匹配 ， 如 果 目 标 字 符 串 包含 一 个 转 义 的 双 引 
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稍 加 改动 的 效果 
223 页 问题 的 答案 
电 种 引 获 从 中 获 蓝 ? 这 种 改动 对 POSIX NEA RAH ANE RAM PREM Be 


式 的 每 一 种 可 能 ， 多 选 分 支 的 顺序 其 实 不 重要 。 不 过 ， 对 传统 型 NFA 来 说 ， 这 样 提 
速度 的 多 选 分 支 重 排序 是 有 利 的 ， 因 为 引擎 一 旦 找到 匹配 结果 就 会 停 下 来 。 


什么 样 的 情况 下 会 有 效果 ? 3 sayy aa ( 
说 一 次 ，POSIX NFA 任何 情况 下 都 会 党 试 所 有 可 能 ) 之 后 , NFA 才 可 能 失败 。 所 以 如 
果 确 实 不 能 匹配 ， 每 种 可 能 部 会 被 尝试 ， 所 以 排列 顺序 没有 影响 

下 表 列 出 了 若干 种 情况 下 所 进 证 行 的 测 斌 和 回潮 的 次 数 “ 数 于 起 小 站 地) 


NN INA yen ( 
测试 


W2\"x3\" likeness" 
"makudonarudo" 


"VerV…99 more chars 
"Long" 


"No \"match\" sa 


我 们 发 现 ， 两 个 表达 式 在 POSIX NFA 中 的 情况 是 一 样 的 ， 而 修改 之 后 ， 传 统 型 NFA 
的 表现 提升 了 (减少 了 回溯 ) 。 而 在 不 能 匹配 的 情况 下 (最 后 一 行 )， 因 为 两 种 引 掌 必 
须 尝试 所 有 的 可 能 ， 结 果 就 是 一 样 的 ， 





"You need a 2\"3\" photo." 
BRU, ERER, JAN BY Ts HE EE 
继续 前 进 一 一 限制 匹配 优先 的 作用 范围 


Advancing Further—Localizing the Greediness 

从 图 6-1 可 以 看 出 ， 在 magn die BOT DETREI SPIE AT ISN REWER”) , ER 
ua a) CAGES) o XMARA, PEMA AY Ab $n RERE RATA E ek EE Lh ch 
ae 

有 一 次 ， 在 处 理 这 类 正则 表达 式 时 ， 我 想到 一 个 优化 的 办 法 ， 考 虑 到 [AN " ]| 匹配 “普通 ”( 非 引号 ， 
非 反 斜 线 ) 的 情况 ， 使 用 [AN " ]+| 会 在 〈.…) 大 的 一 次 迭代 中 读 入 尽 可 能 多 的 字符 。 对 没有 转 义 字符 的 
字符 串 来 说 ， 这 样 会 一 次 谈 入 整个 字符 串 。 于 是 惑 几 乎 不 会 进行 回调 ， 也 就 把 星 号 友 代 的 次 数 减少 到 最 
小 。 我 很 为 目 己 的 发 现 而 高 兴 。 

我 们 会 在 本 章 更 深入 地 考察 这 个 例子 ， 不 过 看 一 眼 统计 数据 会 清楚 地 发 现 好 处 。 图 6-2 展 示 了 传统 型 
NFA LMA Male notin. gak" ENEL E Linuxia inoden tebe | 


“i a 下 面 的 两 个 例子 说 明 ， 结 合 之 前 的 重 排序 技巧 ， 这 种 修改 会 市 来 更 多 的 收 


正则 表达 式 


Im (WN) CAP VAT) +", : " 2 x 3 likeness" 
: aloe loo cae 





图 6-2; 添加 加 号 的 吉 果 (传统 型 NFA) 
新 增 的 加 吕 大 大 减少 了 多 选 结 构 回 调 的 次 数 ， 以 及 星 号 的 欠 代 次 数 。 尾 号 量词 作用 于 括号 内 的 子 表达 
式 ， 每 次 友 代 都 需要 进入 然后 册 退 出 括号 ， 这 都 需要 成 本 ， 因 为 引擎 需要 记录 括号 内 的 子 表达 式 匹 配 的 文 
本 【本章 会 深入 探讨 此 问题 ) 。 


表 6-1 与 第 224 页 答 守 中 的 表格 类似 ， 不 过 表达 陈 不 同 ， 万 外 还 给 出 了 星 号 的 欠 代 次 数 。 在 每 种 情况 
下 ， 独 立 调 弃 次 数 和 回调 次 数 的 增加 都 很 有 限 ， 但 是 适 代 次 数 有 了 蛙 赦 降低 ， 这 和 是 很 大 的 进步 。 
表 6-1: 传统 型 NFA 的 匹配 效率 


Fit en 
i ui mt 
_“very...99 more chars...long" 2 


实测 





Reality Check 


是 的 ， 我 对 目 己 的 友 现 顾 为 得 意 。 但 这 个 看 起 来 很 奇妙 的 “改动 * 不 过 是 场 还 未 烃 友 的 灾难 。 你 可 能 注 
意 到 了 了， 在 考察 它 的 各 项 指标 时 ， 我 没有 给 出 POSIX NFA 的 统计 数据 。 如 和 这 样 做 ， 你 可 能 会 很 恢 奇 地 友 


现 " VerYy °° LONG " 的 匹配 需要 超过 3 亿 亿 亿 次 (实际 上 是 324 518 553 658 426 726 783 156 020 576 
256) 回调 。 说 徐 单 点 束 是 ， 回 调 是 个 天 文 数 字 。 这 需要 超过 50 百 亿 亿 Cquintillion) 年， 或 者 是 硅 干 干 万 
亿 个 干 年 〈 注 1) 。 


确实 很 出 乎 意料 ! 那么 ， 为 什么 会 友 生 这 种 情 人 i 于 一 一 这 个 正则 表达 式 中 
元 了 素 受 加 号 限定 的 同时 ， 还 受 括 号 外 的 星 号 限定 ， IMURA rea Gone D 








就 是 症结 。 下 一 节 给 出 了 详细 解释 。 

“指数 级 ”匹配 

没有 添加 星 号 时 ， TIAN\ " ]| 是 星 号 的 约束 对 象 ， 真 正 的 1 CA") *) 能 够 匹配 的 字符 是 有 限 的 。 它 
先 匹 配 一 个 字符 ， 然 后 匹配 下 一 个 字符 ， 如 此 继续 ， 最 多 就 是 匹配 目标 文本 中 的 每 个 字符 。 它 也 可 能 无 法 
匹配 目标 字符 串 中 的 所 有 字符 ， 不 过 ， 充 其 量 ， 匹 配 字 符 的 个 数 与 目标 字符 串 的 长 度 成 线性 关系 。 目 标 字 
符 串 越 长 ， 可 能 的 工作 量 相对 也 越 大 。 

但 是 ， 对 正则 表达 式 的 GA'O x | 来 说 ， 加 号 和 星 号 二 者 分 割 (divvy up) 字符 串 的 可 能 性 是 成 
数 形式 增长 的 。 如 果 目 标 字符 串 是 makudonarudo， 是 星 号 会 迭代 12 次 ， 每 一 次 迭代 中 [和 \" ]+| 匹配 一 
个 字符 (就 像 这 样 gcGSINSG99 ) ?还 是 星 号 迁 代 3 次 ， 内 部 的 TIAN\ " ]+ 分 别 匹 配 5、3、4 个 字 


》 


‘makudonarudo 、 
') ? RAR 2. 5. ONE C CC)? 还 是 其 他 .…… 


你 现在 知道 ， 存 在 许多 种 可 能 〈 对 长 度 为 12 的 字符 串 存 在 4 096 种 可 能 ) 。 了 字符 串 中 的 每 个 字符， 部 存 
在 两 种 可 能 ，POSIX NEFA 在 给 出 结果 之 前 必须 答 试 所 有 可 能 。 这 残 是 “指数 级 匹配 ”的 来 历 。 我 还 听 说 过 一 
个 不 错 的 名 字 :“ 超 线性 Csuper-linear) ”。 

无 论 叫 什么 名 字 ， 终 归 都 是 回 斋 ， 大 量 的 回溯 〈 注 2) ! 12 个 字符 需要 4 096 种 可 能 ， 这 可 能 不 需要 多 
久 时 间 ， 不 过 20 个 字符 需要 超过 一 百 万 各 可能， 时 间 长 达 硅 干 秒 。30 个 字 从 ， 束 需要 超过 十 亿 种 可 能 ， 长 
达 厂 干 小 时 ， 如 果 是 40 个 字符 ， 束 需要 一 年 多 的 时 间 。 这 显然 不 是 什 么 好 事情 。 

你 可 能 会 想 , “没关系 ，POSIX NFA 并 不 和 常见。 我 知道 我 的 工具 用 的 是 传统 型 NFA， 所 以 这 问题 对 我 
不 存在 。” 的 确 ，POSIX NFA 和 传统 型 NFA 的 主要 差别 在 于 ， 传 统 型 NFA 在 过 到 第 一 个 完整 罗 配 可 能 时 会 
俘 止 。 如 果 没 有 完整 匹配 ， 即 使 是 传统 型 NFA 也 需要 答 试 所 有 的 可 能 ， 在 找到 之 前 。 即 使 是 前 面 提 到 的 " 
No-\ "match "here 这样 短 短 的 字符 串 ， 在 报告 失败 之 前 ， 也 需要 演 试 8 192 种 可 能 。 

在 正则 引擎 忙于 答 试 这 些 数量 庞大 的 可 能 时 ， 整 个 程序 看 起 来 好 像 “ 锁 死 Clock up) ”了 。 我 第 一 次 过 
到 这 种 情况 时 ， 以 为 目 己 发 现 了 程序 的 bug， 不 过 现在 我 理解 了 ， 现 在 我 把 这 个 正则 表达 式 加 入 目 己 的 正则 
表达 式 工 具 包 里 ， 用 来 测试 引 敬 的 类 型 。 

e 如 果 其 中 的 某 个 表达 式 ， 即 使 不 能 匹配 ， 也 能 很 快 给 出 结果 ， 那 可 能 就 是 DFA。 

e 如 果 只 有 在 能 够 风 配 时 才 很 快 出 结果 ， 那 就 是 传统 型 NFA。 

e 如 条 总 是 很 慢 ， 那 融 是 PZOSIX NFA. 

第 一 个 判断 中 我 使 用 了 “可 能 ”这 个 单词 ， 因 为 经 过 高 级 优化 的 NFA 没 准 能 检测 并 且 避 免 这 些 指 数 级 的 
无 休止 〈neverending) 匹配 〈 详 见 本 章 后 文 嗓 250) 。 同 样 ， 我 们 会 见 到 各 种 方法 来 改进 或 重 写 这 些 表达 
式 ， 加 局 它们 匹配 或 报错 的 速度 。 

前 面 列 出 的 几 点 表明 ， 如 有 果 排 除 某 些 高 级 优化 的 影响 ， 残 能 根据 正则 表达 陈 的 相对 性 能 判断 引擎 的 类 
型 。 这 就 是 第 4 章 中 C146) 我 们 能 用 某 些 正则 表达 式 来 “测试 引擎 的 类 型 > 的 原因 。 

当然 ， 不 是 每 点 改动 都 会 带 来 像 本 例 一 样 的 灾难 性 后 果 ， 不 过 除非 知道 正则 表达 式 的 天 后 原理 ， 奋 则 
在 实际 运行 之 前 永远 不 能 判断 后 果 。 为 此 ， 本 章 考 察 了 各 种 例子 的 效率 和 后 果 。 不 过 ， 对 许多 事 来 说 ， 牢 
国 理解 基本 概念 对 深入 学 习 是 非常 重要 的 ;， 所 以 ， 在 讲解 指数 级 匹配 之 前 ， 我 们 不 妨 仔 细 复 习 复 习 回 训 。 


ree ( makudonarudo 
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PA Z E 
A Global View of Backtracking 
从 局 部 来 看 ， 回 调 残 是 倒退 至 未 答 试 的 分 文 。 这 很 容易 理解 ， 但 是 回溯 对 整个 匹配 影响 并 个 容易 理 
。 在 本 斑 ， 我 们 会 详细 考 穴 回 渊 在 匹配 成 功 和 不 成 功 时 的 各 种 细节， 和 莹 试 从 中 及 掘 出 一 些 东 西 。 
先 来 仔细 看 看 前 一 章 的 几 个 例子 ， 在 165 页 ， 我 们 把 " .类 "| 应 用 到 下 面 的 文本 : 
The name " McDonald's " is said " makudonarudo " in Japanese 
匹配 过 程 如 图 6-3 所 示 。 
正则 表达 去 会 从 字符 串 的 起 始 位 置 开 始 依次 答 试 每 个 字符 ， 但 是 因为 开头 的 引号 无 法 匹配 ， 此 后 的 字 
人 符 也 不 能 匹配 ， 直 到 答 试 进行 到 标记 位 置 A。 接 痢 答 试 表 达 陈 的 其 他 部 分 ， 但 是 传动 装置 〈 罕 148) 知道 如 
末 这 种 符 试 不 成 功 ， 整 个 表达 式 可 以 从 下 一 个 位 置 开 始 答 试 。 
然后 .类 | 匹配 直到 字符 串 末尾 ， 此 时 点 号 无 法 匹配 ， 所 以 星 号 停止 迁 代 。 因 为 “. 关 | 匹配 成 功 可 以 不 
需要 任何 字符 ， 所 以 在 此 过 程 中 引擎 记录 了 46 个 状态 供 回溯 。 现 在 “.* | 停止 了 ， 引 擎 从 最 后 保存 的 状态 








T 














- “anise ” Tem 
开始 回调 ， 在 ”处 开始 尝试 A 
也 就 是 说 ， 我 们 在 字符 串 的 末尾 尝试 匹配 表示 结束 的 双 引 号 。 不 过 ， 在 这 里 双 引 号 同样 无 法 匹配 ， 所 
以 尝试 仍然 失败 。 然 后 引擎 继续 回 滴 、 尝 试 ， 结 果 同 样 是 无 法 匹配 。 





et laa Sei, MERR 
正则 表达 式 元 素 成 功 匹 配 的 文本 


The name "etnies is said "makudonarudo" in Japanese 


+ 
ERIE 


rr" ei . 
c. H we 
jt- (EEEIEE. | 


仅 针 对 POSIX NFA 


图 6-3: | .x* "| 的 成 功 匹 配 过 程 
引擎 倒 过 来 答 试 “最 后 保存 的 状态 排 在 最 先 ) 从 A 到 B 保 存 的 状态 ， 前 先是 从 Ba 到 C。 在 进行 了 多 次 尝 
ET I aces " 
试 之 后 到 达 这 个 状态 :正则 表达 式 中 的 “”“^ appi ATIO .in-Japa...， 也 就 是 C 所 标注 
的 位 置 。 此 时 匹配 成 功 ， 于 征 我 们 在 D 位 置 得 到 全 局 匹配 。 
The name "McDonald’s" is said "Makudonarudo" in Japanese 


itz te ANPAM DLAC AE, RP AE RAR BOS, TR VLA 











POSIX NFA 需 要 更 多 人 处理 


More Work for a POSIX NFA 0 000 Linuxi O www.linuxidc.com [] [] 


我 们 已 经 介绍 过 ，POSIX NFA 的 匹配 是 “到 目前 为 止 最 长 的 匹配 ”， 但 是 仍然 需要 尝试 所 有 你 和 存 的 状 
态 ， 人 确认 是 否 存 在 更 长 的 下 配 。 我 们 知道 ， 对 本 例 来 说， 第 一 次 找到 的 匹配 就 是 最 长 的 ， 但 正则 引 敬 需要 
硝 认 这 一 点 。 

所 以 ， 在 保存 的 所 有 状态 中 ， 除 了 两 个 能 够 下 配 双 引 号 的 可 能 之 外 ， 其 他 都 会 在 笠 试 后 立即 被 放弃 。 
所 以 ， 尝 试 过 程 D-E-F 和 F-G-H 类 似 B-C-D， 只 是 F 和 H 会 被 放弃 ， 因 为 它们 匹配 的 文本 比 D 的 要 短 。 

在 I 位 置 能 进行 的 回 洲 是 “局 动 驱动 过 程 ， 进 行 下 一 轮 尝 试 (bump-along and retry) ”。 不过， 因为 从 A 
位 置 开始 的 尝试 能 够 找到 [ 逻 配 (实际 上 是 三 个 ) ，POSIX NEFA 引 擎 最 终 停 下 来 ， 报 告 在 D 位 置 的 匹配 。 


无 法 死 配 时 必须 进行 的 工作 





Work Required During a Non-Match 

我 们 还 需要 分 析 无 法 匹配 时 的 情况 。 我 们 知道 " .类 " ! | 无 法 匹配 范例 文本 ， 但 是 它 在 匹配 过 程 中 
仍然 会 进行 许多 工作 。 我 们 将 会 看 到 ， 工 作 量 增 大 了 许多 。 

图 6-4 说 明了 这 些 。A-I 友 列 类 似 图 6-3。 区 别 在 于 ， 在 位 置 D 无 法 匹配 (因为 结尾 的 问号 ) 。 男 一 点 区 
别 在 于 ， 图 6-4 中 的 整个 尝试 序列 是 传统 型 NFA 和 POSIX NFA 都 必须 经 历 的 : 如 果 无 法 匹配 ， 传 统 型 NFA 必 
须 进行 的 尝试 与 POSIX NFA 一 样 多 。 











ERAR: Mog 尝试 并 匹配 失败 
ne 回溯 并 尝试 ， 匹 配 失败 


一 一 一 *> 正则 表达 式 元 素 成 功 匹 配 的 文本 


The name "McDonald’s" is said "makudonarudo" in Japanese 


Se Renee >A Bee 
C < ” 
P >D., 
— H E < TEEL 
>F. 
G < see! 
H: 
E OT 
Seen KK 
L oe i e 
一 轮 尝试 "| PA >n., 
>o. 
P< eses’ 
S >Q — Re 
= 上 尝试 S l=。。。。。0。. eee 
>T.. 
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i cen IY 


Bea: "oe" | 匹配 失败 的 经 过 
因为 从 开始 的 A 到 结束 的 [的 所 有 党 试 都 不 存在 区 本 | Lee LN es eb a eR geen, AL 





J、Q、YV 开 始 的 答 斌 看 来 有 可 能 匹配 成 功 ， 但 结 朱 都 与 从 A 开 始 的 符 斌 一样。 最 终 到 Y， 不 存在 继续 答 试 的 
途径 ， 所 以 整个 党 试 宣告 失败 。 如 图 6-4 所 示 ， 得 到 这 个 结果 花费 了 许多 工夫 。 


Aine KA 


Being More Specific 

我 们 把 点 号 换 成 i[^" ]| 来 做 个 比较 。 前 一 章 已 经 讨论 过 ， 这 样 的 结果 更 容易 理解 ， 因 为 它 能 匹配 的 
字符 更 少 ， 而 且 这 样 一 来 ， 正 则 表达 式 的 效率 也 提高 了 。 如 果 使 用 An) "th, TA"), 匹配 的 
内 容 吏 不 能 包括 双 引 号 ， 减 少 了 匹配 和 回 济 。 

图 6-5 说 明了 答 试 失败 的 过 程 〈 请 对 比 儿 6-4) 。 从 图 中 可 以 看 到 ， 回 渊 的 次 数 大 大 减少 了 。 如 条 这 个 
结 采 满足 我 们 的 需要 ， 减 少 的 回 渊 融 是 有 益 的 伴随 效应 (side effect) 。 
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The name "McDonald’s" is said "makudonarudo" in Japanese 
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图 6-5: | "[A"]* "1 | 无 法 匹配 
多 选 结 构 的 代价 很 高 
Alternation Can Be Expensive 
多 选 结构 或 许 是 回溯 的 主要 原因 。 举 个 简单 的 例子 ， 用 makudonarudo 来 比较 ulv|wixlylz) 和 


[uvwxyz] | 的 匹配 。 字 符 组 一 般 只 是 进行 简单 测试 〈 注 3) ， 上 所 以 [uvwxyz] | 只 需要 进行 34 次 尝试 吏 能 
配 。 





The name "McDonald's" is said "makudonarudo" in Japanese 
如 果 使 用 ulv|wlxlylzj ， 则 需要 在 每 个 位 置 进行 6 次 回溯 ， 在 得 到 同样 结果 之 前 总 共有 204 次 回溯 。 当 
然 ， 并 不 是 每 个 多 选 结构 都 可 以 答 换 为 字符 组 ， 即 使 可 以 ， 也 不 见得 会 这 么 和 单 。 不 过 ， 在 茶 些 情况 下 ， 
我 们 将 要 学 习 的 技巧 能 够 大 大 减少 与 匹配 所 须 的 多 霉 结构 明 多 的 民 调 xD] [] www.linuxide.com O [J 








理解 回调 可 能 是 学 习 NFA 效 率 中 最 重要 的 问题 ， 但 所 有 的 问题 不 只 于 此 。 正 则 引擎 的 优化 措施 能 够 大 
大 提升 效率 。 在 本 章 后 面 ， 我 们 将 评 细 考察 正则 引擎 要 做 的 工作 和 优化 手段 。 
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性 能 测试 
Benchmarking 
本 章 主 要 讲解 速度 和 效率 ， 而 且 会 时 向 使 用 性 能 测试 ， 所 以 我 希望 介绍 一 些 测试 的 原则 。 我 会 用 几 种 
语言 来 介绍 简 蛙 的 测试 方法 。 
基本 的 性 能 测试 就 是 记录 程序 运行 的 时 间 : 和 完 取 系统 时 间 ， 运 行程 序 ， 青 取 系 统 时 间 ， 计 算 两 者 的 
差 ， 就 是 程序 运行 的 时 间 。 举 个 例子 ， 比 较 '^ (alblcldleltlg) +$; 和 1'^[a-g]+$，。 先 来 看 Perl 的 表现 ， 然 后 
再 来 看 其 他 语言 。 下 面 是 简单 的 Perl 程 序 〈 不 过 ， 我 们 将 会 看 到 ， 这 个 例子 有 欠缺 〉: 


use Time::HiRes 'time'; # 3X4% time () 的 返回 值 更 加 精确 

SStartTime = time(); 

"abababdedfg" =~ m/*(alb|c|dle|lf£lg)+$/; 

SEndTime = time(); 

printf ("Alternation takes %.3f seconds.\n", SEndTime - $StartTime) ; 


SStartTime = time(); 
"abababdedfg" =~ m/*[a-g]+$/; 
SEndTime = time(); 
printf ("Character class takes %.3f seconds.\n", SEndTime = $StartTime) ; 
CAR CM AAS) 很 简单 ， 但 是 在 进行 性 能 测试 时 ， 我 们 需要 记 住 几 点 : 
e 只 记录 “真正 关心 的 (interesting) ”处 理 时 间 。 尽 可 能 准确 地 记录 “处 理 ? 时 间 ， 尽 可 能 避免 “ 非 处 理 时 
间 ” 的 影响 。 如 果 在 开始 前 必须 进行 初始 化 或 其 他 准备 工作 ， 请 在 它们 完成 之 后 开始 计时 ， 如果 需要 收尾 工 
作 ， 请 在 计时 停止 之 后 进行 这 些 工 作 。 
e@ 进 行 “ 足 够 多 ”的 处 理 。 通 第 ， 测 试 需 要 的 时 间 和 是 相当 短暂 的 ， 而 计算 机 时 钟 的 单位 精度 不 够 ， 无 法 
给 出 有 意义 的 数值 。 
在 我 的 机 需 上 运行 这 个 Perl 和 程序， 结果 是 : 
Alternation takes 0.000 seconds. 
Character class takes 0.000 seconds. 
我 们 只 能 知道 ， 这 段 程序 所 需 的 时 间 比 计算 机 能 够 测量 的 最 短 时 间 还 要 短 。 所 以 ， 如 条 程序 运行 的 时 
间 太 短 ， 就 运行 两 次 、 十 次 ， 甚 至 一 干 万 次 ， 来 保证 “足够 多 ”的 工作 。 这 里 的 “足够 多 ”取决 于 系统 时 钟 的 
精度 ， 大 多 数 系统 能 够 精确 到 1/100s， 这 样 ， 即 使 程序 只 需要 0.5s， 也 能 取得 有 意义 的 结果 。 
e 进 行 “准确 的 ”处理 。 进 行 1 000 万 人 次 快速 操作 需要 在 人 负责 计时 的 代码 块 中 升级 1 000 万 次 计数 占 。 如 果 
可 能 ， 最 好 的 办 法 是 增加 真正 的 处 理 部 分 的 比例 ， 而 不 增加 和 额外 的 开销 。 在 Perl 的 例子 中 ， 正 则 表达 式 应 
用 的 文本 相当 短 : 如 果 应 用 到 长 得 多 的 字符 串 ， 在 每 次 循环 中 所 作 的 “真正 的 ”处 理 也 会 多 一 些 ，。 
考虑 到 这 些 因 系 ， 我 们 可 以 得 出 下 面 的 程序 : 
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use Time::HiRes 'time'; # 。， 这样 me() 的 返回 值 更 加 精确 
sTimesToDo = 1000; # 设 定 重复 次 数 
STestString = "abababdedfg" x 1000; # 生成 长 字符 囊 


SCount = Ş$TimesToDo; 
SStartTime = time(); 
while (SCount-- > 0) { 
STestString =~ m/*(alb|c|dlelflg)+$/; 
} 
SEndTime = time(); 
printf ("Alternation takes %.3f seconds.\n", SEndTime - $StartTime) ; 


SCount = $TimesToDo; 
SStartTime = time(); 
while ($Count-- > 0) { 
STestString =~ m/*[a-g]+$/; 
} 
SEndTime = time(); 
printf ("Character class takes %$.3f seconds.\n", SEndTime -~ SStartTime) ; 


请 注 症 ，$TestString 和 $Count 的 初始 化 在 计时 开始 之 前 C$TestString HAW J Perle hth x 操作 和 从 进行 初 
始 化 ， 它 表示 将 左边 的 字符 串 重 复 右 边 的 次 数 ) 。 在 我 的 机 右上， 使 用 Perl5.8 运 行 的 结果 是 : 
Alternation takes 7.276 seconds. 
Character class takes 0.333 seconds. 
所 以 ， 对 这 个 例子 来 说 ， 多 选 结构 要 比 字 符 组 快 22 倍 左右 。 此 测试 应 该 执行 多 次 ， 选 取 最 短 的 时 间 ， 
以 减少 后 台 系 统 活动 的 影响 。 


理解 测量 对 象 


Know What You're Measuring 

我 们 把 初始 化 程序 更 改 为 下 和 面 这 样 ， 会 得 到 更 有 意思 的 结果 : 
STimesToDo = 1000000; 
STestString = “abababdedfg"; 

现在 ， 测 试 字 符 串 只 是 上 面 的 长 度 的 1M1 000， 而 测试 需要 进行 1 000 次 。 每 个 正则 表达 式 测 试 和 匹配 的 
字符 总 数 并 没有 变化 ， 因 此 从 理论 上 讲 , “工作 量 ”应 该 没有 变化 。 不 过 ， 结 果 却 大 不 相同 : 

Alternation takes 18.167 seconds. 
Character class takes 5.231 seconds. 

两 个 时 间 都 比 之 前 的 要 长 。 原 因 是 新 增 的 “* 非 处 理 ? 开 销 一 一 对 $Count 的 检测 和 更 新 ， 以 及 建立 正则 引 
莹 的 时 间 ， 现 在 的 次 数 是 以 前 的 1 000 倍 。 

对 于 字符 组 测试 来 说 ， 新 增 的 开销 花费 了 大 约 5s 的 时 间 ， 而 多 选 结构 则 增加 了 将 近 10 秒 。 为 什么 多 先 
结构 测试 的 时 间 变 化 如 此 之 大 ? 主要 是 因为 捕获 型 括号 《在 每 次 测试 之 前 和 之 后 ， 写 们 都 需要 额外 处 理 ， 
这 样 的 操作 要 多 1 000 倍 ) 。 

无 论 如 何 ， 进 行 这 点 修改 的 要 点 在 于 说 明 ， 真 正 处 理 部 分 和 非 真 正 处 理 部 分 在 计时 中 所 占 的 比重 会 强 
烈 地 影响 到 测试 结果 。 





PHP 测 试 


Benchmarking with PHP 


Ay: 


到 ， 


STimesToDe = 1000; 


/* MAF HB */ 


STestString = ""; 
for (Si. = OF 51 = 10003 $145) 
STestString .= "abababdedfg"; 


/* 开始 第 一 轮 测 试 */ 
Sstart = gettimeofday (); 
for (Si = OF Si <= STimesToDo: $i++) 
preg match('/“(alblclelf£i|g)+3/', STestString) ; 
Sfinal = gettimeofday(); 
Ssec = (Sftinall['sec'] + Sfinal ['usec’'|]/1000000) = 
(Sstart ['sec'] + Sstart(['usec']/1000000) s 


Q- 


printf ("Alternation takes %.3f seconds\n", S$sec); 


/* 开始 第 二 轮 测 试 */ 
Sstart = gettimeofday () ; 
for ($i = Or 81 «x STimesTabor $4144) 
preg match("/*[a-g]+$/', $TestString) 7 
Sfinal = gettimeofday(); 
Ssec = (Sftinal['sec'] + Stinal [ *usec')]/1000000) = 
(Sstart['sec'] + Sstart("usec']/1000000) 7 
printf ("Character class takes %.3f seconds\n", Ssec) ; 


在 我 的 机 器 上 ， 结果 是 : 
Alternation takes 27.404 seconds 
Character class takes 0.288 seconds 


如 果 在 测试 中 过 到 PHP 错 误 “not being safe to rely on the system's timezone settings”， 请 添加 下 面 的 代 


if (phpversion() >= 5) 
date default timezone set ("GMI"); 


Javai)l ix 
Benchmarking with Java 


ANKERRA, HJava lhi E HR. AAT She ARKAT Bai 8S CATA aisha 
应 该 如 何 改进 : 
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import java.util.regex.*; 

public class JavaBenchmark { 

public static void main(String [] args) 

| 
Matcher regexl = Pattern.compile("*(alblc|dlelflg)+$") .matcher ("") ; 
Matcher regex2 Pattern.compile("*[a-g]+$") .matcher("") ; 
long timesToDo = 1000; 


StringBuffer temp = new StringBuffer (); 

for (inte 1 = 1000; 32 > Us 1==) 
temp.append ("abababdedfg") ; 

String testString = temp.toString(); 


// 第 一 轮 测试 计时 ... 
long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (--count > Q) 
regexl.reset (testString) .find(); 
double seconds = (System.currentTimeMillis() - startTime)/1000.0; 
System.out.printin("Alternation takes " + seconds + " seconds"); 


// 第 二 轮 测 试 计 时 ... 
count = timesToDo; 
StartTime = System.currentTimeMillis(); 
while (--count > Q) 
regex2.reset (testString) .find(); 
seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Character class takes " + seconds + " seconds"); 


} 


你 注意 到 在 这 个 程序 中 正则 表达 式 如 何 初 始 化 部 分 编译 了 吗 ? RIER MAR ELE, ANE 
编译 的 速度 。 

速度 取决 于 所 使 用 的 虚拟 机 CVM) 。Sun 的 标准 JRE 有 两 种 虚拟 机 ，dlient ”VM 为 快速 局 动 而 优化 ， 
server VM 为 长 时 间 、 大 负 和 三 的 作业 而 优化 。 

在 我 的 机 器 上 ， 使 用 client YM 运行 测试 的 结果 如 下 : 


Alternation takes 19.318 seconds 
Character class takes 1.685 seconds 


使 用 server YM 的 结果 如 下 : 


Alternation takes 12.106 seconds 
Character class takes 0.657 seconds 


这 样 看 来 测试 有 点 不 可 信 了 ， 之 所 以 说 它 不 够 周到 ， 原 因 在 于 计时 的 结果 在 很 大 程度 上 取决 于 目 动 的 
TREAT SEs (automatic pre-execution compiler) 的 工作 ， 或 者 说 运行 时 编译 旧 (run-time compiler) 与 测 
试 代码 的 交互 情况 。 某 些 虚 拟 机 包含 IT (Just-In-Time compiler) ，JIT 会 根据 需要 ， 在 需要 执行 代码 之 前 
才 进 行 编 详 。 

Java 使 用 了 我 称 为 BLTN (Better-Late-Than-Never) 的 编 详 硕 ， 在 执行 期 间 计 数 ， 对 反复 使 用 的 代码 根 
据 需 要 进行 编译 和 优化 。BLTN 的 性 质 是 ， 它 只 对 认为 “热门 ”(hot， 即 大 量 使 用 )〉 的 代码 进行 干预 。 如 果 
虚拟 机 已 经 运行 了 一 段 时 间 ， 例 如 在 服务 右 环 境 中 DA LA se AR 而 我 们 的 人 简单 例子 确保 了 一 
台 “ 凉 "的 服务 器 (BLTN 没 有 进行 任何 优化 ) 。 L Linux] H www.linuxide.com [] [ 


可 以 把 测试 部 分 放 入 一 个 循环 ， 来 观察 “了 预 热 "现象 : 
/第 一 轮 测 斌 计时. 
for (int i= 4; i> 0; i--) 


{ 


long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (--count > Q) 
regexl.reset (testString) .find(); 
double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Alternation takes ”十 seconds + " seconds"); 


如 果 新 增 的 循环 运行 足够 长 〈 例 如 ，10s) ，BLTN 就 会 优化 热门 代码 ， 最 后 一 次 输出 的 时 间 就 代表 了 
己 预 热 系统 的 情况 。 再 次 使 用 server VM， 这 些 时 间 确 实 比 之 前 有 了 8% 和 259% 的 提高 。 


Alternation takes 11.151 seconds 
Character class takes 0.483 seconds 


FAA ET, Teas Wa RE GCAGFE NY LF xe AA FE A © PTA, EFT AE WS TRIN TA) I BE es PERIZ EE AN 
HA JE AI ZR BIRN 


VB.NET ix 


Benchmarking with VB.NET 
下 面 是 VB.NET 的 测试 程序 : 
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Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 


Module Benchmark 
Sub Main () 
Dim Regexl as Regex = New Regex("*(alb|c|dle|flg)+$") 
Dim Regex2 as Regex = New Regex ("* [a-g]+$") 
Dim TimesToDo as Integer = 1000 
Dim TestString as String = "" 
Dim I as Integer 
For I = 1 to 1000 
TestString = TestString & "abababdedfg" 
Next 


Dim StartTime as Double = Timer () 
For I = 1 to TimesToDo 
Regexl .Match (TestString) 
Next 
Dim Seconds as Double = Math.Round(Timer() - StartTime, 3) 
Console.WriteLine ("Alternation takes " & Seconds & " seconds") 


StartTime = Timer () 


For I = 1 to TimesToDo 
Regex2.Match(TestString) 
Next 
Seconds = Math.Round(Timer() - StartTime, 3) 
Console.WriteLine ("Character class takes " & Seconds & " seconds") 
End Sub 
End Module 


在 我 的 机 器 上 ， 结果 是 : 
Alternation takes 13.311 seconds 
Character class takes 1.680 seconds 


在 .NET Framework"! {# H RegexOptions.Compiled{£ A E WJ ZA TY HALA BATA, HES TE IE MI Ze 
IX SUS AEA OS E re A C410) ， 其 结果 为 : 


Alternation takes 5.499 seconds 
Character class takes 1.157 seconds 


使 用 Compiled 功 能 之 后 ， 两 个 测试 的 速度 都 有 提高 ， 但 是 多 选 结构 的 相对 上 升幅 度 更 为 明显 《“ 儿 乎 是 
之 前 的 3 倍 ， 而 字符 组 的 程序 只 提高 到 之 前 的 1.5 倍 ) ， 所 以 多 选 结 构 从 中 获 区 更 大 。 


Ruby i 


Benchmarking with Ruby 
下 面 是 Ruby 的 测试 代码 : 


由 串口 局 bBinux |] www.linuxide.com [] L 


TimesToDo=1000 
testString="" 
for L 40 1..j..000 
testString += "“abababdedfg" 
end 
Regexl = Regexp::new("“*(alb|c|dle|f£fi/g)+$"); 
Regex2 = Regexp: :new("*[a-g]+S$") ; 
startTime = Time.new.to f 
For 1 an l1..TimesToDdo 
Regexl.match (testString) 
end 
print "Alternation takes %.3f seconds\n" % (Time.new.to f - startTime) ; 
StartTime = Time.new.to f 
for 1 in 1..TimesToDo 
Regex2.match (testString) 
end 
print "Character class takes %.3f seconds\n" % (Time.new.to f - startTime) ; 


在 我 的 机 器 上 ， 结 果 如 下 : 


Alternation takes 16.311 seconds 
Character class takes 3.47/79 seconds 


Python?! ix 


Benchmarking with Python 
下 面 是 Python 的 测试 代码 : 
import re 
import time 
import fpformat 
Regexl = re.compile("*(alb|c|dle|f£]g)+$") 


Regex2 = re.compile("*[a-g]+$") 
TimesToDo = 1250; 
TestString = "" 


for i in range(800): 
TestString += “abababdedfg" 

StartTime = time.time() 

for i in range(TimesToDo) : 
Regexl.search (TestString) 


Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + T seconds" 
StartTime = time.time() 


for 1 in range(TimesToDo): 
Regex2.search (TestString) 
Seconds = time.time() - StartTime 
print "Character class takes " + fpformat.fix(Seconds;,3) + T seconds" 
A 7yPython p EWS EERE, RIDAR TB IRE, AOR AR BEY SF ES SAN ÄR 
fie (“maximum recursion limit exceeded”) 。 这 种 规定 有 点 像 减 压 阅 ， 和 它 有 助 于 终止 无 休止 匹配 。 
作为 弥补 ， 我 相应 增加 了 测试 的 次 数 。 在 我 的 机 右上 ， 训 斌 结果 为 : 
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Alternation takes 10.357 seconds 
Character class takes 0.769 seconds 


Tell i 


Benchmarking with Tcl 
下 和 面 是 Td 的 测试 代码 : 
set TimesToDo 1000 
set TestString "" 
for {set i 1000} {$21 > VF {finer i -1} 4 
append TestString "“abababdedfg" 
} 


set Count STimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {[SCount > 0} {iner Count -1} 1 
regexp {*(alb|c|dle|f/g)+S} STestString 
} 
set EndTime [clock clicks -milliseconds] 
set Seconds [expr (SEndTime - S$StartTime) /1000.0] 
puts [format "Alternation takes %.3f seconds" $Seconds] 


set Count STimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {SCount > 0} {iner Count -1} 1 
regexp {*[a-g]+$} S$TestString 
} 
set EndTime [clock clicks -milliseconds | 
set Seconds [expr (SEndTime - $StartTime) /1000.0] 


O 


puts [format "Character class takes %.3f seconds" SSeconds] 
在 我 的 机 器 上 ， 结 果 如 下 : 


Alternation takes 0.362 seconds 
Character class takes 0.352 seconds 
神奇 的 是 ， 两 者 速度 相当 。 还 记得 吗 ， 我 们 在 第 145 页 说 过 ，Tal 使 用 的 是 NFA/DFA 混 合 引 擎 ， 对 DFA 
引擎 来 说 ， 这 两 个 表达 式 是 没有 区 别 的 。 本 章 所 举 的 大 部 分 例子 并 不 适用 于 Tal， 详 细 信 息 请 参考 第 243 
页 


NO 
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种 见 优 化 措施 

Common Optimizations 

总 明 的 正则 表达 式 实 现 Gimplementation) 有 许多 办 法 来 优化 ， 提 高 取得 结果 的 速度 。 优 化 通 钟 有 两 种 
办 法 : 

e 加 速 某 些 操作 。 某 些 类 型 的 匹配 ， 例 如 \d+| ， 极 为 常见 ， 引 擎 可 能 对 此 有 特殊 的 处 理 方案 ， 执 行 
速度 比 通用 的 处 理 机 制 要 快 。 

e 轩 作风 余 操 作 。 如 条 引擎 认为 ， 对 于 产生 正确 结 末 来 说， 茶 些 特殊 的 操作 是 不 必要 的 ， 或 者 茶 些 操 
作 能 够 应 用 到 比 之 前 更 少 的 文本 ， 忽 略 这 些 操 作 能 够 节省 时 间 。 例 如 ， 一 个 以 A| ( 行 开头 ) 开头 的 正则 
表达 式 只 有 在 字符 串 的 开头 位 置 才能 匹配 ， 如 果 在 此 处 无 法 匹配 ， 传 动 北 置 不 会 徒劳 地 尝试 其 他 位 置 ( 进 
FHWA) 。 

在 下 面 的 十 几 页 中 ， 我 会 讲解 目 己 见 过 的 许多 种 不 同 的 天 才 优化 措施 。 没 有 任何 一 种 语言 或 者 工具 提 
供 了 所 有 这 些 指 施 ， 或 者 只 是 与 其 他 语言 和 工具 相同 的 优化 指 施 ; 我 也 确信 ， 还 有 许多 我 没 匈 过 的 优化 指 
施 ， 但 看 完 本 章 的 读者 ， 应 该 能 够 合理 利用 目 己 所 用 工具 提供 的 任何 优化 措施 。 


ARVAR 




















No Free Lunch 

通常 来 说 优化 能 节省 时 间 ， 但 并 非 永 远 如 些 。 只 有 在 检测 优化 措施 是 否 可 行 所 需 的 时 间 少 于 节省 下 来 
的 匹配 时 间 的 情况 下 ， 优 化 才 是 有 益 的 。 事 实 上， 如 果 引 擎 检查 之 后 认为 不 可 能 进行 优化 ， 结 果 总 是 会 更 
慢 ， 因 为 最 开始 的 检查 需要 花费 时 间 。 所 以 ， 在 优化 所 需 的 时 间 ， 市 省 的 时 则 ， 以 及 更 重要 的 因 和 又 一 一 优 
化 的 可 能 性 之 间 ， 存 在 互相 制约 的 关系 。 

来 看 一 个 例子 。 表 达 式 bB) 〈 某 个 位 置 既是 单词 分 隔 符 又 不 是 单词 分 隔 符 〉 是 不 可 能 匹配 的 。 如 果 
引擎 发 现 提供 的 表达 式 包 含 \b\B | 就 知道 整个 表达 式 都 无 法 匹配 ， 因 而 不 会 进行 任何 匹配 操作 。 它 会 立刻 
报告 匹配 失败 。 如 果 [ 匹 配 的 文本 很 长 ， 市 省 的 时 间 束 非常 可 观 。 

不 过 ， 我 所 知 的 正则 引 敬 都 没有 进行 这 样 的 优化 。 为 什么 ”首先 ， 很 难 判 断 这 条 规则 是 否 适 用 于 某 个 
特定 的 表达 式 。 某 个 包含 bB) 的 正则 表达 式 很 可 能 可 以 匹配 ， 所 以 引擎 必须 做 一 些 额 外 的 工作 来 预先 确 
认 。 当 然 ， 节 省 的 时 间 确 实 很 可 观 ， 所 以 如 果 预 计 到 “\b\B | 经 常 出 现 ， 这 样 做 还 是 值得 的 。 

ANE Ze, IPN EL CDH) GED ， 虽 然 在 极 少数 情况 下 这 样 做 可 以 节省 大 量 的 时 间 ， 但 其 
他 情况 下 速度 降低 的 代价 比 这 高 得 多 。 














优化 各 有 不 同 


Everyone's Lunch is Different 

在 讲解 各 种 优化 措施 时 ， 请 务必 记 住 一 点 “优化 各 有 不 同 Ceveryone’s lunch is different) ”. BARS st 
使 用 简单 清晰 的 名 字 来 命名 每 种 措施 ， 但 不 同 的 引擎 必然 可 能 以 不 同 的 方式 来 优化 。 对 东 个 正则 表达 却 进 
行 细微 的 改动 ， 在 茶 个 实现 方式 中 可 能 会 市 来 速度 的 大 幅 担 升 ， 而 在 另 一 个 实现 方式 中 大 大 降低 速度 。 


正则 表达 式 的 应 用 原理 








The Mechanics of Regex Application 

我 们 必须 先 和 掌握 正则 表达 式 应 用 的 基本 知识 ， 然 后 讲解 先进 系统 的 优化 原理 及 利用 方式 。 之 前 已 经 7 了 
解 了 回调 的 细节 ， 在 本 下 我 们 要 进行 更 全 面 地 和 学习。 

正则 表达 却 应 用 到 目标 字符 绅 的 过 程 大 致 分 为 下 面 几 步 : 

1. ”正则 表达 式 编译 ”检查 正则 表达 式 的 语法 正确 性 ， 如 果 正 确 ， 就 将 其 编译 为 内 部 形式 〈internal 
form) 。 

2. 传动 开始 传动 痛 置 将 正则 引擎 “定位 ?到 目标 字符 串 的 起 始 位 置 。 


3. 元 素 检测 引擎 开始 测试 正则 表达 式 和 文本 ， 依 次 测试 正则 表达 式 的 各 个 元 素 (comp-onent) ， 如 第 
4 章 所 说 的 那样 。 AAMER T NAAMA, LSE RURAL www. linuxide-com LE 








。 相 连 元 素 ， 例 如 "Subject, H's). Tu. "by. Gi, Te 等 等 ， 会 依次 尝试 ， 只 有 当 某 个 元 素 
匹配 失败 时 才 会 停止 。 

,量词 修 亿 的 元 素 ， 控 制 权 在 量词 “检查 量词 是 可 应 该 继续 匹配 ) 和 被 人 定 的 元 素 “测试 能 在 匹配) 
之 间 轮 换 。 

。 控 制 权 在 捕获 型 括号 内 外 进行 切换 会 带 来 一 些 开销 。 括 号 内 的 表达 式 匹 配 的 文本 必须 保留 ， 这 样 才 
能 通过 $1 来 引用 。 因 为 一 对 括号 可 能 属于 某 个 回溯 分 支 ， 括 号 的 状态 就 是 用 于 回溯 的 状态 的 一 部 分 ， 所 以 
进入 和 退出 捕获 型 括号 时 需要 修改 状态 。 

4. 寻找 匹配 结果 ”如果 找 到 一 个 匹配 结果 ， 传 统 型 NFA 会 “锁定 ”在 当前 状态 ， 报 告 匹 配 成 功 。 而 对 
POSIX NFA 来 说 ， 如 果 这 个 匹配 是 迄今 为 止 最 长 的 ， 它 会 记 住 这 个 可 能 的 匹配 ， 然 后 从 可 用 的 保存 状态 继 
续 下 去 。 保 存 的 状态 都 测试 完毕 之 后 返回 最 长 的 匹配 。 

5. 传动 装置 的 驱动 过 程 如 果 没 有 找到 匹配 ， 传 动 装置 就 会 驱动 引擎 ， 从 文本 中 的 下 一 个 字符 开始 新 一 
轮 的 尝试 〈 回 到 步骤 3) 。 

6. 匹配 彻底 失败 如 果 从 目标 字符 串 的 每 一 个 字符 (包括 最 后 一 个 字符 之 后 的 位 置 》 开 始 的 尝试 都 失败 
就 会 报告 匹配 彻底 失败 。 
下 面 几 节 讲解 高 级 的 实现 方式 如 何 减 少 这 些 处 理 ， 以 及 如 何 应 用 这 些 技巧 。 


应 用 之 前 的 优化 措施 














Ne 
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Pre-Application Optimizations 

优秀 的 正则 引 获 实现 方式 能 够 在 正则 表达 式 实 际 应 用 之 前 就 进行 优化 ， 它 有 时 候 甚 至 能 迅速 判断 出 ， 
某 个 正则 表达 式 无 论 如 何 也 无 法 匹配 ， 所 以 根本 不 必 应 用 这 个 表达 式 。 

编译 缓存 

第 2 章 的 E-mail 处 理 程序 中 ， 用 于 处 理 header 各 行 的 主 循环 体 中 是 这 样 的 : 

while (…) { 
if ($line =~ m/*\s*§$/ ) … 
if ($line =~ m/*Subject: (.x)/)… 
if ($line =~ m/*Date: (.*)/)… 
if ($line =~ m/*Reply-To: (\S+) /) … 
if ($line =~ m/*From: (\St+) \(([*()1*)\)/) = 
} 

正则 表达 式 使 用 之 前 要 做 的 第 一 件 事 情 是 进行 错误 检查 ， 如 果 没 有 问题 则 编 详 为 内 部 形式 。 编 详 之 后 
的 内 部 形式 能 用 来 检查 各 种 字符 串 ， 但 是 这 段 程 序 的 情况 如 何 ? 显然 ， 每 次 循环 都 要 重新 编 详 所 有 正则 表 
达 式 ， 这 很 当 费 时 间 。 相 反 ， 在 第 一 次 编 诺 之 后 了 驶 把 内 部 形式 保存 或 缓 仔 下 来 ， 在 此 后 的 循环 中 重复 使 用 
它们 ， 显 然 会 提高 速度 〈 只 是 要 消耗 些 内 存 ) 。 

其 体 做 法 取决 于 应 用 程序 提供 的 正则 表达 式 处 理 方式 。93 页 已 经 说 过 ， 有 3 种 处 理 方 式 : 集成 式 、 程 序 
式 和 面向 对 象 式 。 

集成 式 处 理 中 的 编译 缓存 

Perl 和 awk 使 用 的 束 是 集成 式 处 理 方 法 ， 非 党 容易 进行 编译 缓存 。 从 内 部 来 说 ， 每 个 正则 表达 式 都 关 
联 到 代码 的 某 一 部 分 ， 第 一 次 执行 时 在 编译 结果 与 代码 之 间 建 立 关联 ， 下 次 执行 时 只 需要 引用 即 可 。 这 样 
最 市 省 时 间 ， 代 价 就 是 需要 一 部 分 内 存 来 保存 缓存 的 表达 式 。 
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DFA, Tel 与 手工 调 校正 则 表 这 式 


本 章 中 介绍 的 大 部 分 优化 措施 并 不 适用 于 DFA。 第 242 页 介绍 的 编译 缓存 却 过 用 于 所 
有 的 引 学 ， 但 是 本 和 草 讨 论 的 所 有 手工 调 校 部 不 适用 于 DFA, 4H CHARA, HL 
相等 的 正则 表达 式 thislthatj 和 th(islat)1, 对 DFA 来 说 是 等 价 的 , 之 所 以 要 写本 
章 ， 是 因为 它们 对 NFA 来 说 不 相等 。 


那么 使 用 DFA/NFA 混合 引 掌 的 Tcl 呢 ? Tel 的 正则 引 掌 是 由 正则 表达 式 的 传奇 人 物 


Henry Spencer (788) 为 Tcl 专门 开发 的 ， 它 成 功 地 融合 了 DFA 和 NFA 的 优点 。 在 
2000 年 4 月 的 Usenet posting 中 ，Henry 这 样 写 到 : 
总 的 来 说 ,与 传统 的 正则 引 掌 相 比 ，Tcl 的 引 掌 对 正则 表达 式 的 具体 形式 的 敏感 
度 要 低 得 多 。 无 论 正则 表达 式 写 成 怎么 样 ， 该 快 的 就 快 ， 该 慢 的 就 慢 。 传 统 的 正 
则 表达 式 手工 优化 在 这 里 不 适用 ，。 
Henry 的 Tcl 正则 引 学 是 一 大 进步 。 如 果 其 中 的 技术 流行 开 米 ， 本章 的 许多 内 容 就 毫 无 
意义 了 。 








变量 插值 功能 〈variable interpolation， 即 将 变量 的 值 作为 正则 表达 式 的 一 部 分 ) 可 能 会 给 绥 存 造成 及 
烦 。 例 如 对 m/^Subject: -\Q $DesiredSubject\E\s 关 $/ 来 说 ， 每 次 循环 中 正则 表达 式 的 内 容 可 能 会 友 生 改变 ， 
因为 它 取决 于 插值 变量 ， 而 这 个 变量 的 值 可 能 会 变化 。 如 果 每 次 都 会 不 同 ， 那 么 正则 表达 式 每 次 都 需要 编 
译 ， 完 全 不 能 重复 利用 。 

尽管 正则 表达 式 可 能 每 次 循环 都 会 变化 ， 但 这 并 不 是 说 任何 时 候 都 需要 重新 编译 。 折 中 的 优化 措施 残 
是 检查 插值 后 的 结果 〈 也 融 是 正则 表达 式 的 具体 值 ) ， 只 有 当 具 体 值 发 生变 化 时 才 重 新 编译 。 不 过 ， 如 果 
变化 的 几率 很 小 ， 大 多 数 时 候 束 只 需要 检查 〈 而 不 需要 编译 ) ， 优 化 效果 很 明显 。 

程序 式 处 理 中 的 编译 绥 存 

在 集成 式 处 理 中 ， 正 则 表达 却 的 使 用 与 其 在 程序 中 所 处 的 具体 位 置 相 关 ， 所 以 再 次 执行 这 段 代 码 时 ， 
编译 好 的 正则 表达 式 束 能 够 缓存 和 香 复 使 用 。 但 是 ， 程 序 式 人 处理 中 只 有 通用 的 “应 用 此 表达 式 ” 的 函数 。 也 
束 是 说 ， 编 译 形式 并 不 与 程序 的 具体 位 置 相连 ， 下 次 调用 此 函数 时 ， 正 则 表达 式 必 须 重 新 编译 。 从 理论 上 
来 说 就 是 如 此 ， 但 是 在 实际 应 用 中 ， 禁 止 和 尝试 缓存 的 效率 无 疑 很 低 。 相 反 ， 优 化 通常 是 把 最 近 使 用 的 正则 
表达 式 模 式 (regex pattern) 保存 下 来 ， 关 联 到 最 终 的 编 详 形式 。 

调用 “应 用 此 表达 式 ” 函 数 之 后 ， 作 为 参数 的 正则 表达 式 模式 会 与 保存 的 正则 表达 式 相 比较 ， 如 果 存 在 
于 绥 存 中 ， 就 使 用 绥 存 的 版 本 。 如 果 没 有 ， 束 直接 编译 这 个 正则 表达 式 ， 将 其 存 入 绥 存 (如 果 绥 存 有 容量 
限制 ， 可 能 会 蔡 换 一 个 旧 的 表达 式 ) o WRATH. WAMA (thrown out) 一 个 编译 形式 ， 通 第 是 
最 久未 使 用 的 那个 。 

GNU Emacs 的 缓存 能 够 保存 最 多 20 个 正则 表达 式 ，Tal 能 保存 30 个 。PHP 能 保存 四 千 多 个 。.NET 
Framework 在 默认 情况 下 能 保存 15 个 表达 式 ， 不 过 数量 可 以 动态 设置 ， 也 可 以 茶 止 此 功能 02432) 。 

绥 存 的 大 小 很 重要 ， 因 为 如 果 绥 存 闭 不 下 循环 中 用 到 的 所 有 正则 表达 式 ， 在 循环 重新 开始 时 ， 最 开始 
的 正则 表达 陈 会 被 清除 出 缓存 ， 结 果 每 个 正则 表达 式 都 需要 重新 编 详 。 

TAD [ay XY Be Th Ach E h H Fin PE 

在 面 回 对 象 式 处 理 中 ， 正 则 表达 式 何 时 编译 完全 由 程序 员 决 定 。 正 则 表达 式 的 编译 是 用 户 通过 New 
Regex、re.compile 和 Pattern.compile 〈 分 别 对 应 .NET、Python 和 java.utilregex) 之 类 的 构造 水 数 来 进行 的 。 
第 3 章 的 简单 示例 对 此 做 了 介绍 〈 从 第 95 页 开始 ) ， 编 译 在 正则 表达 式 实 际 应 用 之 前 完成 ， 但 是 它们 也 可 以 
更 早 完 成 《有 时 候 可 以 在 循环 之 前 ， 或 者 是 程序 的 初始 化 阶段 ，， 人 然后 可 以 随意 使 用 。 在 第 235、237 和 
238 页 的 性 能 测试 中 体现 了 这 一 点 。 


在 面向 对 象 式 处 理 中 ， 程 序 员 通 过 对 象 析 构 函 女 抛 异 上 由 okih Wy) LAE Ee, COMA states | 








不 需要 的 编译 形式 能 够 节省 内 存 。 

了 预 得 必须 字符 / 子 字符 串 优 化 

相 比 正则 表达 却 的 完整 应 用 ， 在 字符 串 中 搜索 菏 个 字符 《或 者 是 一 串 字 符 ) 是 更 加 “ 轻 量 级 ”的 操作 ， 
所 以 茶 些 系统 会 在 编译 阶段 做 些 额 外 的 分 析 ， 判 断 是 侣 存在 成 功 匹 配 必 须 的 字符 或 者 字符 串 。 在 实际 应 用 
正则 表达 却 之 前 ， 在 目标 字符 串 中 快速 扫描 ， 检 查 所 需 的 字符 或 者 字符 串 一 一 如 果 不 存 在 ， 根 本 残 不 需要 
进行 任何 尝试 。 

举例 来 说 ， ASubject: - Cx) | 的 ‘Subject: 是 必须 出 现 的 。 程 序 可 以 检查 整个 字符 串 ， 或 者 使 用 
Boyer-Moore 搜 索 算 法 〈 这 是 一 种 很 快 的 文件 检索 算法 ， 字 人 符 串 越 长 ， 效 率 越 高 ) 。 没 有 采用 Boyer-Moore 
算法 的 程序 进行 逐个 字符 检查 也 可 以 提高 效率 。 选 择 目 标 字 符 串 中 不 太 可 能 出 现 的 字符 《例如 “Subject; 
中 的 心 之 后 的 “: O 能 够 进一步 提高 效率 。 

正则 引擎 必须 能 识别 出 ， "ASubject: : Cx) | 的 一 部 分 是 固定 的 文本 字符 串 ， 对 任意 匹配 来 说 ， 识 
别 出 thislthatlother| 中 “th? 是 必须 的 ， 需 要 更 多 的 工夫 ， 而 且 大 多 数 正则 引擎 不 会 这 样 做 。 此 问题 的 答案 并 
不 是 黑 日 分 明 的 ， 某 个 实现 方式 或 许 不 能 识别 出 册 是 必须 的 ， 但 能 够 识别 出 和 都 是 必须 的 ， 所 以 至 
少 可 以 检查 一 个 字 付 。 

不 同 的 应 用 程序 能 够 识别 出 的 必须 字符 和 字符 串 有 很 大 差别 。 许 多 系统 会 受到 多 选 结构 的 干扰 。 在 这 
种 系统 中 ， 使 用 了 h(islat) | 的 表现 好 于 thislthat | 。 同 样 ， 请 参考 第 247 页 的 “开头 字符 /字符 组 / 子 串 识 
别 优化 ”。 

长 上 度 判断 优化 

[ASubject: - x) | 能 匹配 文本 的 长 度 是 不 固定 的 ， 但 是 至 少 必 须 包 依 9 个 字符 。 所 以 ， 如 采 目 标 
字符 串 的 长 度 小 于 9 则 根本 不 必 和 党 试 。 当 然 ， 需 要 匹配 的 字符 更 长 优化 的 效果 才 更 明显 ， 例 如 l: 
\d{79}: | 《至 少 需要 81 个 字符 ) 。 

请 参见 第 247 页 的 “长 度 识 别传 动 优化 ”。 


通过 传动 痊 置 进行 优化 











Optimizations with the Transmission 

即使 正则 引擎 无 法 预知 某 个 字符 串 能 否 风 配 ， 也 能 够 减少 传动 装置 真正 应 用 正则 表达 式 的 位 置 。 

字符 串 起 始 /行销 点 优化 

这 种 优化 措施 能 够 判断 ， 任 何以 ^| 开头 的 正则 表达 式 只 能 在 ^| 能 够 匹配 的 情况 下 才 可 能 匹配 ， 所 
以 只 需要 在 这 些 位 置 应 用 即 可 。 

在 “预备 必须 字符 / 子 字 符 串 优化 ?中 提 到 ， 正 则 引擎 必须 判断 对 茶 个 正则 表达 式 来 该 有 哪些 可 行 的 优 
化 ， 在 这 里 同样 有 效 。 任 何 使 用 此 优化 的 实现 方式 都 必须 能 够 识别 ， 如 果 TA (thislthat) | 匹配 成 功 ， T 
必须 能 够 匹配 ， 但 许多 实现 方式 不 能 识别 AthislAthat| 。 此 时 ， 用 "和 (thislthat〉| 或 者 和 ^(?: 
this|that) | 能 够 提高 匹配 的 速度 。 

同样 的 优化 措施 还 对 VA, 有效， 如 果 匹 配 多 次 进行 ， 对 NG, 也 有 效 。 
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能 使 用 此 种 优化 的 引擎 知道 ， 如 果 正 则 表达 式 以 .* | 或 .+| 开头 ， 而 且 没有 全 局 性 多 选 结 构 
(global alternation) ， 则 可 以 认为 此 正则 表达 式 的 开头 有 一 个 看 不 见 的 “^j 。 这 样 就 能 使 用 上 一 节 的 “字符 
串 起 始 / 行 销 点 优化 ”， 节 省 大 量 的 时 间 。 

更 聪明 的 系统 能 够 认识 到 ， 即 使 开头 的 .类 | 或 .+| 在 括号 内 ， 也 可 以 进行 同样 的 优化 ， 但 是 在 遇 到 
捕获 括号 时 必须 小 心 。 例 如 ，「 C+) X 期 望 匹配 的 是 字符 串 在 'X' 两 侧 是 相同 的 ， 添 加 T 就 不 能 匹配 
1234X2345 GES) . 

字符 串 结束 / 行 锚 点 优化 

这 种 优化 遇 到 末尾 为 '$| 或 者 其 他 结束 锚 点 (号 129)〉 的 正则 表达 式 时 ， 能 够 从 字符 串 末 尾 倒数 若干 字 
符 的 位 置 开始 尝试 匹配 。 例 如 正则 表达 式 | regex ‘eq f] URN CW we aE ESA [ i 























( 注 6) 开始 ， 所 以 传动 儿 置 能 够 跳 到 那个 位 置 ， 略 过 目标 字符 串 中 许多 可 能 的 字符 。 

开头 字符 /字符 组 / 子 串 识别 优化 

这 是 “ 预 得 必须 字符 / 子 字 符 串 优化 ?的 更 一 般 的 厂 本 ， 这 种 优化 使 用 同样 的 信息 《正则 表达 陈 的 任何 匹 
配 必须 以 特定 字符 或 文字 子 字符 串 开 头 ) ， 容 许 传 动 装置 进行 快速 子 字 人 符 串 检 枉 ， 所 以 它 能 够 在 字符 串 中 
合适 的 位 置 应 用 正则 表达 式 。 例 如 ， thislthatlother| 只 能 从 [lot], 的 位 置 开始 匹配 ， 所 以 传动 装置 预先 检 
租 字 符 串 中 的 每 个 字符 ， 只 在 可 能 匹配 的 位 置 进行 应 用 ， 这 样 能 节省 大 量 的 时 间 。 能 够 预先 检查 的 子 串 越 
长 , “错误 的 开始 位 置 ? 束 越 少 。 

内 骨 文 字 字 从 串 检查 优化 

这 有 所 类 似 初 始 字 从 串 识别 优化 ， 不 过 更 加 蜗 级 ， 它 针对 的 是 在 逻 配 中 国定 位 置 出 现 的 文学 字符 串 。 
如 果 正 则 表达 式 是 \b Cperl|java) \regex\vinfob | ， 那 么 任何 匹配 中 都 要 有 .regex.info?， 所 以 智能 的 传动 装 
S 高 速 的 Boyer-Moore 字 符 串 检索 算法 寻找 “regex.info:， 然 后 往 前 数 4 个 字符 ， 开 始 实际 应 用 正则 

IAT o 

ROR TL, ROR A AEA BR SCE FB Sp EIA SE MAME A Ta SEIN Re. AE AN BE 
F '\b (vbljava) \regex\.info\b, ， 这 个 表达 式 虽 然 包 含 文字 字符 串 ， 但 此 字符 串 与 匹配 文本 起 始 位 置 的 距 
离 是 不 确定 的 〈2 个 或 4 个 字符 ) 。 这 种 优化 同样 也 不 能 用 于 [Nb C\w+) \.regex\.infolb) ， 因 为 | (w+) | 
可 能 匹配 任意 数目 的 字符 。 

长 度 识 别传 动 优化 

此 优化 与 245 页 的 长 大 识别 优化 直接 相关 ， 如 果 当 前 位 置 距离 字 和 但 串 末 尾 的 长 度 小 于 成 功 匹 配 所 需 最 
ISKE, RIRA RIIE LMR. 

















优化 正则 表达 式 本 时 


Optimizations of the Regex Itself 

文字 字符 串 连 接 优化 

也 许 最 基本 的 优化 就 是 ， 引 擎 可 以 把 abe) 当 作 “一 个 元 素 ”， 而 不 是 三 个 元 素 “ [al ， 然 后 是 中 | ， 然 
后 是 cj ”。 如 果 能 够 这 样 ， 整 个 部 分 就 可 以 作为 匹配 迭代 的 一 个 单元 ， 而 不 需要 进行 三 次 迭代 。 





化 简 量 词 优化 
约束 普通 元 素 一 一 例如 文字 字符 或 者 字符 组 一 一 的 加 号 、 星 扎 之 疾 的 量词 ， 通 和 要 经 过 优化 ， 吉 人 免 普 











通 NFA 引 擎 的 大 部 分 逐步 处 理 开 销 〈step-by-step overhead) 。 正 则 引擎 内 的 主 循环 必须 通用 (general) ， 
能 够 处 理 引 擎 支持 的 所 有 结构 。 而 在 程序 设计 中 , “通用 ”意味 着 “速度 慢 "， 所 以 此 种 优化 把 .大 | 之 类 的 
稍 单 量词 作为 一 个 “整体 ”， 正 则 引擎 便 不 必 按 照 通 用 的 办 法 处 理 ， 而 使 用 高 速 的 ， 专 门 化 的 处 理 程序 。 这 
样 ， 通 用 引擎 就 绕 过 (short-circuit) 了 这 些 结构 。 

举例 来 说 ， .大 A! (2: .) x | 在 逻辑 上 是 相等 的 ， 但 是 在 进行 此 优化 的 系统 中 ， .类 | 实际 上 更 
快 。 淮 一 些 例子 : 在 java.util.regex 中 ， 性 能 提升 在 10% 左 右 ， 但 是 在 Ruby 和 .NET 中 ， 大 概 是 2.5 倍 。 在 
Python 中 ， 大 概 是 50 倍 。 在 PHP/PCRE 中 ， 大 概 是 150 倍 。 因 为 Panl 实 现 了 下 一 节 介绍 的 优化 措施 ，“. 夫 | 和 
| (? : .) x 的 速度 是 一 样 的 〈 请 参考 下 一 页 的 补充 内 容 ， 了 解 如 何 解释 这 些 数据 ) 。 

消除 无 必要 括号 

如 果 某 种 实现 方式 认为 ”(? : .) 类 | 与 .类 | 是 完全 等 价 的 ， 那 么 它 就 会 用 后 者 替换 前 者 。 

消除 不 需要 的 字符 组 

只 包含 单个 字符 的 字符 组 有 点 儿 多 余 ， 因 为 它 要 按照 字符 组 来 处 理 ， 而 这 么 做 完全 没有 必要 。 所 以 ， 
聪明 的 实现 方式 会 在 内 部 把 1[.]| 转换 为 .| 。 

忽略 优先 量词 之 后 的 字符 优化 

忽略 优先 量词 ， 例 如 " Cw?) "| RR? "*， 在 处 理 时 ， 引 擎 通常 必须 在 量词 作用 的 对 象 〈 点 
号 ) 和 "| 之 后 的 字符 之 闻 切 换 。 因 为 种 种 原因 ， 忽 略 优先 量词 通常 比 匹配 优先 量词 要 慢 ， 尤 其 是 对 上 文 
中 “化 简 量 词 优 化 * 的 匹配 优先 限定 结构 来 襄 ， 更 是 如 此 。 男 一 个 原因 是 ， 如 果 和 忽略 优先 量词 在 捕获 型 括号 


> 内 ， 控 制 权 就 必须 在 括号 ， 这 样 会 市 来 御 外 的 再 销 。| inuxi 
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所 以 这 种 优化 的 原理 是 ， 如 末 文 字 字 符 跟 在 忽略 优先 量词 之 后 ， 只 要 引擎 没有 触及 那个 文字 字符 ， 急 
略 优先 量词 可 以 作为 普通 的 匹配 优先 量词 来 处 理 。 所 以 ， 包 合 此 优化 的 实现 方 去 在 这 种 情况 下 会 切换 到 特 
殊 的 忽略 优先 量词 ， 迅 速 检 测 目 标 文 本 中 的 文字 字符 ， 在 迪 到 此 文字 字符 之 前 ， 跳 过 币 规 的 “忽略 ?状态 。 

此 优化 还 有 各 种 其 他 形式 ， 例 如 预 查 一 组 字符 ， 而 不 是 特殊 的 一 个 字符 〈 例 如 ， 检 查 ["] Cx? ) 
[" 中 的 『"] ， 这 有 点 类 似 前 面 介绍 的 开头 字符 识别 优化 ) 。 


理解 本 章 中 的 性 能 测试 


本 章 的 大 多 数 性 能 测试 给 出 的 是 某 种 语言 的 相对 结果 。 例 如 ， 第 248 页 我 提 到 一 种 优 
化 过 结构 能 比 另 一 种 未 优化 的 结构 快 10% ,至 少 在 Sun 的 Javaregex package 中 是 这 样 。 
在 .NET 中 ， 两 者 之 间 的 差异 是 2.5 倍 ,在 PCRE 中 ,是 150 倍 。 在 Perl 中， 两 者 是 一 
wa (也 就 是 ， 它 们 的 速度 是 相同 的 )。 


那么 ， 你 能 够 从 中 推导 出 不 同 语言 之 间 的 相对 速度 吗 ? 显然 不 能 。PCRE 中 150 倍 的 
性 能 提升 意味 着 优化 执行 的 效果 特别 好 ， 相 对 其 他 语言 ， 或 者 意味 着 未 优化 的 股本 速 
度 很 慢 。 在 大 部 分 中 ,我 几乎 没有 提 到 语言 之 间 的 计时 间 题 ， 因 为 它们 是 语言 开发 人 


员 争 论 的 话题 。 

不 过 还 是 有 一 点 值得 一 看 ,就 是 Java 的 10% 和 PCRE 的 1$0 倍 背后 的 细节 .看 起 来 PCRE 
中 未 优化 的 (?: .)x*i 的 速度 是 Java 的 1/11, 不 过 优化 的 .xj 要 快 13 倍 。Java 和 Ruby 
的 优化 版 本 速度 相同 ， 但 是 Ruby 的 未 优化 版 本 比 Java 的 要 慢 40%, Ruby 的 未 优化 版 
本 只 比 Python 的 未 优化 版 本 慢 10% ,但 是 Python 的 优化 版 本 比 Ruby 的 优化 披 本 快 20 
te 

所 有 这 些 都 比 Perl HRS, Perl 的 优化 和 未 优化 版 本 都 比 Python 最 快 的 版 本 快 10%。 
请 注意 ， 每 种 语言 都 有 自己 的 强项 ， 这 些 数字 只 是 针对 某 个 具体 的 测试 情况 而 言 的 。 
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第 226 页 的 “实测 ”揭示 的 问题 是 ，' (.+) 类 | 之 类 的 量词 结合 结构 ， 能 够 制造 指数 级 的 回溯 。 避 免 这 
种 情况 的 简单 办 法 就 是 限定 回潮 的 次 数 ， 在 “ 超 限 ”时 停止 匹配 。 在 某 些 实际 情况 中 这 非常 有 用 ， 但 是 它 也 
为 正则 表达 式 能 够 应 用 的 文本 人 为 设置 了 限制 。 

例如 ， 如 果 上 限 是 10 00E, 1.x? | 就 不 能 匹配 长 于 10 000 的 字符 ， 因 为 每 个 匹配 的 字符 都 对 应 
一 次 回溯 。 这 种 情况 并 不 罕见 ， 尤 其 在 处 理 Web 页 时 更 是 如 此 ， 所 以 这 种 限制 非常 糟糕 。 

出 于 不 同 的 原因 ， 某 些 实现 方式 限制 了 回潮 堆栈 的 大 小 (也 就 是 同时 能 够 保存 的 状态 的 上 限 〉，。 例 
如 ，Python 的 上 限 是 10 000。 融 像 回调 上 限 一 样 ， 这 也 会 限制 正则 表达 式 所 能 处 理 的 文本 的 长 度 。 

因为 存在 这 个 问题 ， 本 书 中 的 条 些 性 能 测试 构建 起 来 非常 困难 。 为 了 获得 最 准确 的 结果 ， 性 能 测试 中 
计时 部 分 应 该 尽 可 能 多 地 完成 正则 表达 式 的 匹配 ， 所 以 我 创建 了 极 长 的 字符 串 ， 比 较 例 如 " Cx) 
"aa TE G x", Ph OC) we? "ALE CA") X? "| 的 执行 时 间 。 为 了 保证 结果 有 意义 ， 我 
必须 限制 字符 串 的 长 度 ， 以 避免 回溯 计数 或 者 堆栈 大 小 的 限制 。 你 可 以 在 239 页 看 到 这 个 例子 。 

避免 指数 级 (也 就 是 超 线 性 super-linear〉 匹配 

避免 无 休止 的 指数 级 匹配 的 更 好 办 法 是 ， 在 匹配 尝试 进入 超 线性 状态 时 进行 检测 。 这 样 就 能 做 些 额外 
的 工作 ， 来 记录 每 个 量词 对 应 的 子 表 达 式 尝试 匹配 的 位 置 ， 绕 过 重复 尝试 。 
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串 的 字符 数量 更 多 。 人 奋 则 肯定 友 生 了 指数 级 匹配 。 如 果 根 据 这 个 线索 发 现 匹 配 已 经 无 法 终止 ,检测 和 消除 
见 余 的 匹配 古 更 复杂 的 问题 ， 但 是 因为 多 选 分 文 匹 配 次 数 太 多 ， 这 么 做 或 许 值得 。 

检测 超 线 性 匹配 并 迅速 报告 匹配 失败 的 副作用 (side effect) 之 一 就 是 ， 真 正 缺 乏 效率 的 正则 表达 式 并 
不 会 体现 出 效率 的 低下 。 即 使 使 用 这 种 优化 ， 避 人 免 了 指数 级 匹配 ， 所 人 花 的 时 间 也 远 远 局 于 真正 需要 的 时 
间 ， 但 是 不 会 慢 到 很 容易 被 用 户 及 现 《〈 不 像 是 等 到 太阳 落 山 一 样 漫长 ， 而 可 能 是 多 消耗 11100s， 对 我 们 来 
说 这 很 快 ， 但 对 计算 机 来 说 很 漫长 〉。 

当然 ， 总 的 来 看 可 能 还 是 利 大 于 次 。 许 多 人 不 关心 正则 表达 式 的 效率 一 一 它们 对 正则 表达 式 怀 着 一 种 
恐惧 心理 ， 只 希望 能 完成 任务 ， 而 不 关心 如 何 完 成 。《〈 你 可 能 没 见 过 这 种 情况 ， 但 是 我 希望 这 本 书 能 够 加 
强 你 的 信心 ， 束 像 标 题 说 的 那样 ， 精 通 正则 表达 式 〉。 

使 用 局 有 优先 量词 削减 状态 

由 正 第 量词 约束 的 对 象 匹 配 之 后 ， 会 傈 留 厨 干 “ 在 此 处 不 进行 匹配 ?的 状态 《量词 每 一 轮 适 代 创 建 一 个 
状态 ) 。 占 有 优先 量词 (号 142〉 则 不 会 你 留 这 些 状态 。 具 体 做 法 有 两 种 ， 一 

种 是 在 量词 全 部 符 试 完成 之 后 抛 工 所 有 备用 状态 ， 效 率 更 局 的 办 法 是 每 一 轮 运 代 时 抛 并 上 一 轮 的 备用 
状态 《匹配 时 总 需要 保存 一 个 状态， 这 样 在 量词 无 法 继续 匹配 的 时 候 引 擎 还 能 继续 运转 ) 。 

在 迭代 中 即时 抛弃 状态 的 做 法 效率 更 高 ， 因 为 所 占 的 内 存 更 少 。 应 用 .x | 会 在 匹配 每 个 字符 时 创造 
一 个 状态 ， 如 来 字符 串 很 长 ， 会 占用 大 量 的 内 存 。 


AW “FARRER 


在 第 4 章 中 (171), 我们 用 \wt:) REA ‘Subject’, '\wt, LAF A RAR, 
最 后 的 冒号 无 法 匹配 ， 所 以 回溯 机 制 会 强迫 八 w+ 逐个 交还 字符 ， 在 每 个 位 置 对 ":, 进 
行 徒劳 的 尝试 。 在 这 个 例子 中 ， 如 果 使 用 固化 分 组 ^(?>\w+) :1 或 者 占有 优先 量词 
^N\w++:1， 能 够 避免 无 谓 的 劳动 。 














聪明 的 实现 方式 应 该 能 自动 做 到 这 一 点 。 编 译 正则 表达 式 时 ， 引 党 会 检查 量词 之 后 的 
元 素 能 匹配 的 字符 是 否 与 量词 作用 元 素 匹 配 的 字符 重合 ， 如 果 不 重 登 ， 量 词 就 应 该 自 
动 转变 为 占有 优先 的 形式 。 

就 我 所 知 ， 目 前 还 没有 系统 采用 这 种 优化 ， 在 这 里 列 出 来 ， 是 鼓励 开发 人 员 考 虑 这 个 
问题 ， 因 为 我 坚信 它 能 带 来 实质 性 的 收益 。 





量词 等 价 转换 

有 人 习惯 用 \d\d\d\d| ， 也 有 人 则 习惯 使 用 量词 \d{4}| 。 两 者 的 效率 有 差别 吗 ? 对 NFA 来 说 ， 答 案 几 
平 是 肯定 的 ， 但 工具 不 同 ， 结 果 也 不 同 。 如 果 对 量词 做 了 优化 ， 则 "\d{4}| 会 更 快 一些 ， 除 非 未 使 用 量词 
的 正则 表达 式 能 够 进行 更 多 的 优化 。 听 起 来 有 点 迷惑 ?但 事实 确实 如 此 。 

我 的 测试 结果 表明 ，Perl、Python、PHP/PCRE 和 .NET 中 ， '\d{4}) 大 概要 快 20%。 但 是 ， 如 果 使 用 
Ruby 和 Sun 的 Java regex package, |\d\d\d\d) 则 要 快 上 好 几 倍 。 所 以 ， 看 起 来 量词 在 某 些 工 具 中 要 更 好 一 
He, FE HBT A eee, AN, Te OSE GO fa 

比较 “====| 和 ={4}| 。 这 个 例子 与 上 面 的 截然 不 同 ， 因 为 此 时 重复 的 是 确定 的 文字 字符 ， 而 直接 使 
用 ===) 引擎 更 容易 将 其 识别 为 一 个 文字 字符 串 。 如 果 是 ， 支 持 的 高 效 的 开头 字符 /字符 组 / 子 串 识别 优化 
(=247) 就 可 以 派 上 用 场 。 对 Python 和 Sun 的 Java regex package 来 说 ， 情 况 正 是 如 此 ， ====| 比 ={4]}| 
快 上 100 倍 。 

Perl、Ruby 和 .NET 的 优化 手段 更 高 级 ， 它 们 不 会 区 分 “====| 和 ={4}| ， 结 果 ， 两 者 是 一 样 快 的 (而 
且 都 比 dddd 和 df4} HATRA EFH] 0 0 0 Linux] O www.linuxidc.com O [J 





需求 识别 

另 一 种 简单 的 优化 措施 是 ， 引 擎 会 预先 取消 它 认 为 对 匹配 结果 没有 价值 的 〈 例 如 ， 在 不 必 捕获 文本 的 
地 方 使 用 了 捕获 型 括号 ) 工作 。 识 别 能 力 在 很 大 程度 上 依赖 于 编程 语言 ， 不 过 这 种 优化 实现 起 来 也 可 以 委 
容易 ， 如 果 在 匹配 时 能 够 指定 某 些 选 项 ， 就 能 禁止 某 些 代价 高 昆 的 特性 ， 

Tal 就 能 够 进行 这 种 优化 。 除 非 用 户 明确 要 求 ， 否 则 它 的 捕获 型 括号 并 不 会 真正 捕获 文本 。 而 ,NET 的 
正则 表达 式 提供 了 一 个 选项 ， 容 许 程序 员 指定 捕获 型 括号 是 否 需要 捕获 。 





[| 日 日 Linux[| || www.linuxidc.com [] [] 


所 高 表达 陈 速 度 的 诀 等 

Techniques for Faster Expressions 

之 前 的 数 页 介绍 了 我 见 过 的 传统 型 NFA 引 擎 使 用 的 各 种 优化 。 没 有 任何 程序 同时 有 具备 所 有 这 些 优化 ， 
而 且 无 论 你 爱 用 的 程序 目前 文 持 哪些 ， 情 况 也 会 随时 间 而 改变 。 但 是 ， 理 解 可 能 进行 的 各 种 优化 ， 我 们 吏 
能 写 出 效率 更 高 的 表达 式 。 如 果 你 还 理解 传统 型 NFA 的 工作 原理 ， 把 这 些 知识 结合 起 来 ， 就 可 以 从 三 方面 
aR AN : 

ej SETAE AAT ”编写 适应 已 知 《〈 或 者 未 来 会 文 持 的 ) 优化 措施 的 表达 式 。 举 例 来 说 ， 
xx) 比 x+| 能 适用 的 优化 措施 更 多 ， 例 如 检查 目标 字符 串 中 必须 出 现 的 字符 (号 245〉 ， 或 者 开头 字 
符 识 别 〈 喇 247) 。 

e 模 拟 优化 有 时 候 我 们 知道 所 用 的 程序 没有 特殊 的 优化 措施 ， 但 是 通过 手工 模拟 ， 我 们 还 是 能 节省 大 
量 的 时 间 。 比 如 在 rthislthat| 之 前 添加 1 C2 = ，， 这 样 即使 系统 无 法 预知 任何 匹配 结果 必须 以 中 开头 ， 
我 们 还 是 能 模拟 开头 字符 识别 C2247) ， 下 文 还 会 深入 讨论 这 个 例子 。 

e 主 寻 引 擎 的 匹配 ”使 用 关于 传统 型 ”NFA 引擎 工作 原理 的 知识 ， 能 够 主导 引擎 更 快 地 匹配 。 拿 
thislthat | 来 说 。 每 个 多 选 分 文 都 以 th, 开头 ， 如 有 条 第 一 个 多 选 分 文 不 能 匹配 | th, ， 第 二 个 显然 也 不 行 ， 
所 以 不 必 白 费 工 夫 。 因 此 ， 我 们 可 以 使 用 也 〈? : isad | 。 这 样 ， 由 | 就 只 要 检查 一 遍 ， 只 由 在 确实 需 
要 的 时 候 才 会 用 到 代价 相对 高 昂 的 多 选 结 构 功能 。 而 且 ， Tth (? : islat) | 开头 的 纯 文 字 字符 就 是 rth | ， 
所 以 存在 进行 其 他 优化 的 可 能 。 

重要 的 是 认识 到 ， 效 率 和 优化 有 时 候 处 理 起 来 比较 太 烦 。 在 阅读 本 布 其 他 内 容 的 时 候 ， 请 不 要 瑟 记 下 
EJLA: 

e 进 行 看 来 确实 有 帮助 的 改动 ， 有 时 反而 事与愿违 ， 因 为 这 样 可 能 茶 止 了 你 所 不 知道 的 ， 已 经 生效 的 
其 他 优化 。 

e 计 加 一 些 内 容 模拟 你 知道 的 不 存在 的 优化 指 施 ， 可 能 出 现 的 情况 是 ， 处 理 那 些 添 加 内 容 的 时 间 多 于 
证 省 下 来 的 时 间 。 

e 讨 加 一 些 内 容 模拟 一 个 目前 未 提供 的 优化 ， 如 宋 将 来 升级 以 后 的 软件 文 持 此 优化 ， 反 而 会 影响 或 者 
重复 真正 的 优化 。 

e 辣 样 ， 控 制 表 达 陈 答 试 触及 采种 当前 可 用 的 优化 ， 将 来 茶 些 软件 升级 之 后 可 能 无 法 进行 杀 些 更 高 级 
的 优化 。 

e 为 所 局 效 率 修 改 表 达 式 ， 可 能 导致 表达 陈 难 以 理解 和 维护 。 

e 具 体 的 修改 市 来 的 好 处 或 是 坏处 〉 的 程度 ， 基 本 上 取决 于 表达 式 应 用 的 数据 。 对 余 类 数据 来 说 有 
共有 的 修改 ， 可 能 对 男 一 类 数据 来 说 是 有 害 的 。 

我 来 举 个 极端 点 的 例子 :你 在 Perl 脚本 中 找到 (000|999) $| ， 并 决定 把 这 些 捕 获 型 括号 替换 为 非 捕 
获 型 括 亏 。 你 党 得 这 样 速 度 更 快 ， 因 为 不 再 需要 捕获 文本 的 开销 。 但 是 奇怪 的 征 ， 这 个 微小 而 且 看 起 来 有 
益 的 改动 反而 会 把 表达 式 的 速度 降低 许多 个 数量 级 〈 比 之 前 慢 几 千 倍 ) 。 怎 么 会 这 样 呢 ? 原来 在 这 里 有 知 
干 因 系 共同 作用 ， 使 用 非 捕获 型 括号 时 ， 字 符 串 结束 / 行 锁 点 优化 《〈 罕 246) REKHA. RAAT Me 
在 Perl 中 使 用 捕获 型 括号 一 一 绝 大 多 数 情 况 下 ， 使 用 他 们 都 是 有 益 的 ， 但 是 在 未 些 情况 下 ， 会 市 来 灾难 性 
的 后 来 。 

所 以 ， 检 测 并 性 能 测试 你 期 望 实际 应 用 的 同类 型 的 数据 ， 有 助 于 判断 改动 是 否 值 得 ， 但 是 ， 你 仍然 必 
须 目 己 权衡 众多 因 系 。 束 说 这 么 多 ， 下 面 我 开始 讲解 一 些 技巧 ， 你 能 够 用 它们 来 挖 气 引 获 效 率 有 的 最 后 一 所 
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意识 性 优化 


Common Sense Techniques 

只 需要 依 徘 第 识 ， 束 能 进行 一 些 极 有 成 效 的 优化 。 

避免 重新 编 详 

编 详 和 定义 正则 表达 式 的 次 数 应 该 尽 可 能 的 少 。 在 面 回 对 象 式 处 理 中 〈 嗓 95) ， 用 户 能 够 精确 控制 这 
一 点 。 举 例 来 说 ， 如 果 你 希望 在 循环 中 应 用 正则 表 进 未 | aR bainuen L 





环 中 重复 使 用 。 

在 函数 式 处 理 一 一 例如 GNU Emacs 和 Tcl 
于 工具 所 能 缓存 的 上 限 (244) 。 

如 有 果 使 用 的 是 集成 式 处 理 ， 例 如 Perl， 应 尽量 避免 在 循环 内 的 正则 表达 式 中 使 用 变量 插值 ， 因 为 这 样 
每 次 循环 都 需要 重新 生成 正则 表达 式 ， 即 使 值 没有 变化 《〈 不 过 ，Perl 提 供 了 高 效 的 办 法 来 避免 这 个 问题 喇 
348) 。 

使 用 非 捕 获 型 括号 

如 果 不 需 要 引用 括号 内 的 文本 ， 请 使 用 非 捕获 型 括号 ”(? : .…) | 045) 。 这 样 不 但 能 够 节省 捕获 
的 时 间 ， 而 且 会 减少 回 济 使 用 的 状态 的 数量 ， 从 两 方面 提高 速度 。 而 且 能 够 进行 进一步 的 优化 ， 例 如 消除 
无 必要 括号 (S248) 。 

不 要 小 用 括号 

在 需要 的 时 候 使 用 括号 ， 在 其 他 时 候 使 用 括号 会 阻止 某 些 优化 措施 。 除 非 你 需要 知道 .x | 匹配 的 最 
后 一 个 字符 ， 否 则 请 不 要 使 用 (.) 大， 。 这 似乎 很 显而易见 ， 但 是 别 忘 了 ， 本 节 的 标题 是 “常识 性 优 
AN 

不 要 小 用 字符 组 

这 一 点 看 起 来 也 很 显而易见 ， 但 是 我 经 常 在 缺乏 经 验 的 程序 员 的 表达 式 中 看 到 ^.x[: ] 。 我 不 知道 
为 什么 他 们 会 使 用 只 包含 单个 字符 的 字符 组 一 一 这 样 需要 付出 处 理 字 符 组 的 代价 ， 但 并 不 需要 用 到 字符 组 
提供 的 多 字符 匹配 功能 。 我 认为 ， 当 一 个 字符 是 元 字符 时 一 一 例如 「[.]| 或 者 [x]| ， 可 能 作者 不 知道 通 
过 转 义 把 它们 转换 为 \ | 和 \x | 。 我 经 常 在 宽松 排列 模式 (号 111〉 下 见 到 它们 与 空白 字符 一 起 出 现 。 

同样 ， 读 过 本 书 第 一 版 的 Pen 用 户 可 能 有 时 候 写 出 A[Ff][Rr[Oo][Mm]: | ， 而 不 是 用 不 区 分 大 小 写 的 
Afrom: | 。 老 版 本 的 Perl 在 进行 不 区 分 大 小 写 的 匹配 时 效率 很 低 ， 所 以 我 推荐 使 用 字符 组 。 但 现在 这 种 
做 法 已 不 再 适用 ， 因 为 不 区 分 大 小 写 匹 配 效率 低下 的 问题 在 好 几 年 前 就 修正 了 。 

AE FA EE a P A 

除非 是 极其 罕见 的 情况 ， 和 否则 以 .x* | 开头 的 正则 表达 式 都 应 该 在 最 前 面 添加 '^ 或 者 \Aj C 
129) 。 如 果 这 个 正则 表达 式 在 某 个 字符 串 的 开头 不 能 匹配 ， 那 么 显然 在 其 他 位 置 它 也 不 能 匹配 。 添 加 销 点 
Se ee ee ene nearer nee ene enews Eitan 
Sh BEY 





的 情况 下 ， 应 尽量 保证 循环 中 使 用 的 正则 表达 却 的 数目 少 


















































将 文字 文本 独立 出 来 
Expose Literal Text 
我 们 在 本 章 见 过 的 许多 局 部 优化 ， 主 要 是 依靠 正则 引擎 的 能 力 来 识别 出 匹配 成 功 必须 的 一 些 文字 文 
。 汞 些 引 擎 在 这 一 点 上 做 得 比 其 他 引 获 要 好 ， 所 以 这 里 提供 了 一 些 手 动 优 化 撞 施 ， 有 助 于 “其 露 * 文 字 文 
提高 引擎 识别 的 可 能 性 ， 配 合 与 文字 文本 有 关 的 优化 措施 。 
从 量词 中 “提取 ”必须 的 元 系 
用 xxx | 替代 x+| 能 够 暴露 匹配 必须 的 “x'。 同 样 的 道理 ，“ -{5，7} | 可 以 写作 1------{0，2}| o 
“提取 ?多 选 结构 开头 的 必须 元 系 
用 ‘th C? : isat) | 替代 (? : thislthat) | ， 就 能 暴露 出 必须 的 “由 | 。 如 果 不 同 多 选 分 支 的 结尾 音 
分 相同 ， 我 们 也 可 以 从 右面 “提取 ”， 例 如 C? : optim|standard) ization) 。 我 们 会 在 下 一 节 中 看 到 ， 如 果 
提取 出 来 的 部 分 包括 销 扣 ， 这 么 做 束 非 第 有 价值 。 


将 铂 扣 独立 出 来 
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Expose Anchors 

某 些 效果 明显 的 内 部 优化 措施 是 利用 锚 点 〈 例 如 ^ 人 S'S) 和 \G| ) ， 把 表达 式 “ 绑 定 ”在 目标 字符 串 
的 汞 一 问 。 使 用 这 些 优化 时 ， 东 些 引 筝 的 效果 不 如 其 他 引擎 ， 但 是 有 一 些 技巧 能 够 提供 帮助 。 

在 表达 式 前 面 独 立 出 和 ^ 和 \G [| O U U Linux] |] www.linuxidc.com |] [| 








FA C? : abc|123) | 和 Aabcl^123| 在 逻辑 上 是 等 价 的 ， 但 是 许多 正则 引擎 只 会 对 第 一 个 表达 式 使 用 
开头 字符 /字符 串 / 字 串 识 别 优 化 〈 棕 246) 。 所 以 ， 第 一 种 办 法 的 效率 要 局 得 多 。PCRE 【还 包括 使 用 它 的 
TA) 中 两 痢 的 效率 是 一 样 的 ， 但 是 大 多 数 其 他 NEFA 工 具 中 第 一 个 表达 式 的 效率 更 高 。 

比较 | Cabe) | 和 ^A Gabo) | 我 们 能 发 现 另 一 个 区 别 。 前 者 的 设置 并 不 很 合适 ， 锚 点 “ 藏 "在 捕获 型 
括号 内 ， 在 检测 销 点 之 前 ， 必 须 首 先进 入 括号 ， 在 许多 系统 上 ， 这 样 做 的 效率 很 低 。 茶 些 系 统 (PCRE、 
Perl、.NET) 中 两 者 的 效 靳 相当 ， 但 是 在 其 他 系统 中 CRuby 和 Sun 的 Java regex package) 只 会 对 后 者 进行 
TMG « 

Python 似乎 不 会 进行 销 点 优化 ， 所 以 这 些 技巧 目前 不 适用 于 Python。 当然， 本章 介 绍 的 大 多 数 优 化 都 
不 适用 于 Tcl (2243) 。 

在 表达 式 末 尾 独立 出 $ 

此 措施 与 上 一 节 的 优化 思想 非常 类 似 ， 虽 然 abc$l123$| 和 (? : abcl123) $| 在 逻辑 上 是 等 价 的 ， 
但 优化 的 表现 可 能 不 同 。 目 前 ， 这 种 优化 还 只 适用 于 Perl， 因 为 现在 只 有 Perl 提供 了 “字符 串 结束 /行销 点 
优化 ”( 吧 246) 。 优 化 只 对 C.. $| 起 作用 ， 对 1 (...$|...$) | 不 起 作用 。 


忽略 优 乞 还 是 匹配 优 匈 ? 有 其 体 情 况 具 体 分 本 
Lazy Versus Greedy:Be Specific 
通常 ， 使 用 忽略 优先 量词 还 是 匹配 优先 量词 取决 于 正则 表达 式 的 具体 需求 。 举 例 来 说 ， 人 大: | 完全 
只 


PEPI? : | ， 因 为 前 者 匹配 到 最 后 的 冒号 ， 而 后 者 匹配 到 第 一 个 冒号 。 但 是 ， 如 果 目 标 数据 中 只 包 
人 一 个 分 亏 ， 两 个 表达 却 惑 没有 区 别 了 “匹配 到 唯一 的 分 号 为 止 ) ， 所 以 选择 速度 更 快 的 表达 却 可 能 更 合 








了 


i 


MIHANERE RAAU, Re, BOR A BRR, TORU Aad sae EER 
FHI A, MEHAR E, ROPE S| BARE ERT Bah Ss. WR IRA IERTI BR 
ME MEHLER E. MIRAGE EELA, MAAS RS Sh, WAE VEC 5G AY 
w, VAT 016 -RRMA EE tee] BR, TOE ee AIA UY Ja TA AB RERIT A KN Ve] 
EZER” Ce 248) 时 ， 更 是 如 此 。 

如 果 待 匹配 的 字符 串 很 短 ， 差 别 就 不 那么 明显 了 。 这 时 候 ， 两 个 正则 表达 式 的 速度 都 很 快 ， 不 过 如 果 
你 很 在 乎 那 一 点 后 速度 下 列 ， 束 对 典型 数据 做 个 性 能 测试 吧 。 

一 个 与 此 有 关 的 问题 是 ， 在 忽略 优先 量词 和 排除 型 字符 组 之 间 ( 人 类 ? : | 与 AIA: ]x: | ) ， 应 该 
如 何 选 择 ? 答案 还 是 取决 于 所 使 用 的 编程 语言 和 应 用 的 数据 ， 但 是 对 大 多 数 引 敬 来往， 排除 型 字符 组 的 效 
率 比 忽略 优先 量词 高 的 多 。Per] 是 个 例外 ， 因 为 它 能 对 忽略 优先 量词 之 后 的 字符 进行 优化 。 


拆 分 正则 表达 式 








Split Into Multiple Regular Expressions 

有 时 候 ， 应 用 多 个 小 正则 表达 式 的 速度 比 一 个 大 正则 表达 式 要 快 得 多 。 举 个 极端 的 例子 ， 如 果 你 希望 
检查 一 个 长 字符 串 中 是 否 包 仿 月 份 的 名 字 ， 依 次 检查 | January | : February | 、 [March 之 类 的 速度 ， 要 
比 “January|February|March|...| 快 得 多 。 因 为 对 后 者 来 说 ， 不 存在 匹配 成 功 必须 的 文字 内 容 ， 所 以 不 能 i 
行 “内 嵌 文 字 字符 串 检查 优化 ” C247) 。“ 大 而 全 * 的 正则 表达 式 必须 在 目标 文本 中 的 每 个 位 置 测试 所 有 的 
ERAN, WEHA. 

撰写 本 章 时 ， 我 遇 到 了 一 个 有 趣 的 情况 。 用 “Pen 写 一 个 数据 处 理 模块 时 ， 我 意识 到 客户 端 程序 有 个 
bug， 导 致 它 发 送 奇 怪 的 数据 ， 类 似 'HASH (Ox80f60ac) “而 不 是 真正 的 数据 。 所以， 我 打算 修正 这 个 模 
块 ， 寻 找 怪异 数据 的 来 源 ， 并 报告 错误 。 我 使 用 的 正则 表达 式 相当 直 白 : '\b (? : SCALAR|ARRAY| 
... HASH) \ (Ox[0-9a-fA-F]+\) | 。 

EXE, REIER. KS FIAT ATR ON (a? Perl 的 调试 模式 〈debugging mode) 能 够 告诉 你 
EON RE FE FETA SUE RHE TO Ce 361) . MAREI RE. Ete ES a A PU a EA 
C245) ， 因 为 足够 先进 的 引擎 应 该 能 够 明日 *《〈0x" 是 任何 匹配 所 必须 的 。 因 为 这 个 正则 表达 陈 所 应 用 的 
数据 几乎 不 包含 Ox, chek gabe 9 NSAI Ze, Perle Are rei, Hr AET AEREN 
EL EES AEN SEE HS HEL REA TE MU BTA RANA Bese Apso aa ESS sik dn UXidc.com [] I 








因为 正在 研究 和 撰写 与 优化 有 关 的 内 容 ， 所 以 我 喘 思 苗 想 ， 这 个 表达 式 应 该 怎样 写 才 能 得 到 优化 。 一 
[ 
oe Ox (?<=(?:SCALAR| + | HASH 0 ae, 
个 办 法 是 以 复杂 前 方式 ‘ ONLESE (SCALAR 1 |HASH) \ (9%) fy ga-fa-FIN) | 。 这 样 ， 一旦 
A (Ox, 匹配 之 后 ， 肯 定型 顺序 环视 〈 下 画 线 标注 部 分 ) 就 能 确保 之 前 匹配 的 是 需要 的 文本 ， 再 检查 之 后 
的 文本 是 否 符合 期 望 。 费 这 番 周 折 的 原因 在 于 ， 让 正则 表达 式 获得 必须 出 现 的 文字 文本 \ (0x| ， 这 样 就 
能 进行 多 种 优化 。 尤 其 是 ， 我 硕 望 进行 预 得 必须 字符 串 优 化 ， 以 及 开头 字符 /字符 组 / 子 串 识 别 优 化 《〈 嗓 
247) 。 我 确定 这 样 速 度 会 很 快 ， 但 是 Perl 不 文 持 长 度 不 定 的 逆序 环视 C2 133) ， 所 以 我 得 想 办 法 来 绕 开 
Éo 
不 过 我 发 觉 ， 如 果 Perl 不 会 自动 预 查 \〈0xj ， 我 可 以 自己 动手 : 
if ($data =~ m/\(0x/ 
and 
Sdata =~ m/(?:SCALAR]| ARRAY |...| HASH) \ (0x [0-9a-fA-F]+\) /) 








{ 
# 销 误 数据 ， 报 车 
} 
(0x | 的 检查 事实 上 会 过 小 大 部 分 文本 ， 相 对 较 慢 的 完整 正则 表达 式 只 对 有 可 能 匹配 的 行进 行 检 
调 ， 这 样 束 在 效率 〈 非 第 融 ) 和 可 读 性 (非常 高 ) 之 间 达 到 了 完美 的 平衡 ( 注 7) 。 


模拟 开头 字符 识别 


Mimic Initial-Character Discrimination 

如 果 你 的 实现 方式 没有 进行 开头 字符 识别 优化 C247) ， 则 可 以 亲自 动手 ， 在 表达 式 的 开头 添加 合适 
的 环视 结构 〈 嗓 133) 。 在 正则 表达 式 的 其 他 部 分 匹配 之 前 ， 环 视 结构 可 以 进行 “ 预 查 ”， 选 择 合适 的 开始 位 
置 。 

如 果 正 则 表达 式 为 Jan|Feb|...|Dec | ， 对 应 的 就 是 1 (? =[JFMASOND]) (? : Jan|Febj...{[Dec) |o 
FAHY [JFMASOND]; 代表 了 英文 中 月 份 单词 可 能 的 开始 字母 。 不 过 这 种 技巧 并 不 是 所 有 情况 下 都 适用 
的 ， 因 为 ， 环 视 结构 的 开销 可 能 大 于 节省 的 时 则 。 在 这 个 例子 中 ， 因 为 多 数 多 选 分 支 都 可 能 逻 配 失败 ， 预 
AX MAN KS BARS (Java, Perl, Python. Ruby. .NET) 都 是 有 用 的 ， 因 为 它们 都 不 能 目 动 从 
Jan|Feb|...|Dec| 得 到 开头 的 “DJFMASOND]| 。 

在 默认 情况 下 ，PHP/PCRE 并 不 会 进行 这 种 优化 ， 但 是 如 果 使 用 PCRE 的 pcre_study (也 就 是 PHP 中 的 模 
式 修饰 符 S5， 号 478) 则 可 以 。 而 Td 显然 能 够 完美 地 做 到 这 一 点 0243) 。 

如 果 正 则 引擎 能 自动 进行 JUFEMASOND]| 的 检测 ， 速 度 当 然 会 比 用 户 手工 指定 快 得 多 。 我 们 有 没有 办 
法 让 引擎 自动 进行 检测 呢 ? 在 许多 系统 上 ， 我 们 可 以 用 下 面 这 个 复杂 得 要 命 的 表达 式 : 

| JJFMASOND](?:(? <=J)an|(? <=F)eb]J...|(?<=D)ec) | 

BH) AERA RAAKA, (Ae te RY a) A AE RASA. FETA SITKA 
组 可 以 被 大 多 数 系统 的 开头 字符 识别 优化 所 利用 ， 这 样 传动 装置 就 能 够 高 效 地 预 查 [JEFMASOND]| 。 如 
果 目 标 字符 串 不 包含 匹配 字符 ， 结 果 会 比 原来 的 'Jan|...|Dec | 或 是 手工 添加 环视 功能 的 表达 式 要 快 。 但 
是 ， 如 果 上 日 标 字 从 串 中 包含 许多 字符 组 能 够 下 配 的 字符 ， 那 么 额外 的 人 逆序 环视 可 能 反而 会 减 慢 风 配 的 速 
上 肛 。 最 主要 的 问题 是 ， 这 个 正则 表达 式 显 然 很 难看 恒 。 但 是 ， 这 个 例子 倒是 很 有 意思 ， 也 很 启发 人 。 

不 要 在 Tcl 中 这 么 做 

上 面 的 优化 例子 其 实 降低 了 表达 式 的 可 读 性 。243 页 的 补充 内 容 提 到 ， 不 同形 式 的 正则 表达 式 在 Tcl 中 
的 表现 是 相同 的 ， 所 以 在 Tcl 中 ， 大 多 数 优 化 并 没有 意义 。 不 过 ， 有 个 例子 中 优化 确实 有 影响 。 根 据 我 的 测 
试 ， 手 动 添 加 1， (C? =UEMASOND]) | 会 把 速度 降低 到 原来 的 1/100。 

不 要 在 PHP 中 这 么 做 

之 前 我 们 已 经 提 到 过 ， 不 应 该 在 PHP 中 进行 优化 ， 因 为 我 们 能 够 使 用 PHP 的 “study” 功 能 一 一 模式 修饰 


符 S 一 一 来 启用 优化 。 详 见 第 10 章 第 478 页 。 
[| O U U Linuxi] |] www.linuxidc.com [] [| 

















使 用 固化 分 组 和 占有 优先 量词 


Use Atomic Grouping and Possessive Quantifiers 

在 许多 情况 下 ， 固 化 分 组 (号 139)〉 和 占有 优先 量词 (142) 能 够 极 大 地 提高 匹配 速度 ， 而 且 它 们 不 
会 改变 匹配 结果 。 举 例 来 说 ， 如 果 A ]+: | 中 的 冒号 第 一 次 尝试 时 无 法 匹配 ， 那 么 任何 回溯 其 实 都 是 
没有 意义 的 ， 因 为 根据 定义 ， 回 漳 “ 交 还 ”的 任何 字符 都 不 可 能 是 冒号 。 使 用 固化 分 组 O > 
[A ]+) : | 或 者 占有 优先 量词 ^[^: ]++: | 就 能 够 直接 抛弃 备用 状态 ， 或 者 根本 不 会 创造 多 少 备用 状 
态 。 因 为 引擎 没有 内 容 状态 可 以 回调 ， 就 不 会 进行 不 必要 的 回溯 《第 251 页 的 补 序 内 容 说 明 ， 足 够 取 明 的 引 
能 够 目 动 进行 这 种 优化 ) 。 

不 过 ， 我 必须 强调 ， 这 两 种 结构 运用 不 当 ， 就 会 在 不 经 意 间 改 变 匹 配 结果 ， 所 以 必须 极为 小 心 。 如 果 

不 用 Ak: | 而 用 I^(? >x): | ， 结 果 必 然 会 失败 。 整 行文 本 都 会 被 [.* | 匹配 ， 后 面 的 1:， | 就 无 
法 匹配 任何 字符 。 固 化 分 组 阻止 最 后 的 1: | 匹配 必须 进行 的 回溯 ， 所 以 匹配 必定 失败 。 


主 寻 引擎 的 匹配 








E 


Lead the Engine to a Match 

提高 正则 表达 式 匹配 效率 的 另 一 个 办 法 是 尽 可 能 准确 地 设置 匹配 过 程 中 的 “控制 权 ”。 我 们 曾经 看 过 的 
用 th C? : isat) | 取代 thislthat| 的 例子 。 在 后 一 个 表达 式 中 ， 多 选 结构 获得 最 高 级 别 的 控制 权 ， 而 在 
前 一 个 表达 式 中 ， 相 对 代价 更 高 昂 的 多 选 结构 只 有 在 ' 也 | 匹配 之 后 才 获得 控制 权 。 

下 一 节 “ 消 除 循 环 ” 是 这 种 技巧 的 高 级 形式 ， 此 处 再 介绍 些 简 单 的 技巧 。 

将 最 可 能 匹配 的 多 选 分 支 放 在 前 头 

在 本 书 中 我 们 看 到 ， 许 多 时 候 多 选 分 支 的 摆 放 顺序 非常 重要 (号 28、176、189、216) 。 在 这 些 情况 
Pa a a a a 
Mo 

举例 来 说 ， 在 匹配 主机 名 的 正则 表达 式 C205) 中 ， 有 人 可 能 习惯 把 后 绥 按 照 字 母 顺 序 排序 ， 例 如 
| C? : aerolbizlcomlcoop|.…) | 。 不 过 ， 某 些 排 在 前 头 的 后 缀 应 用 并 不 广泛 ， 匹 配 极 有 可 能 失败 ， 为 什么 
要 把 他 们 排 在 前 头 呢 ? 如 果 按 照 分 布 数量 的 排序 : | C? : comledulorg|net|...) | ， 更 有 可 能 获得 更 迅速 更 
常见 的 匹配 。 

当然 ， 这 只 有 对 传统 型 NFA 引 擎 才 适 用 ， 而 且 只 有 存在 匹配 的 时 候 才 适用 。 如 采 使 用 POSIX NFA, Bk 
是 不 存在 匹配 ， 此 时 所 有 的 多 选 分 支 都 必须 检测 ， 所 以 顺序 是 无 关 紧 要 的 。 

将 结尾 部 分 分 散 到 多 选 结构 内 

接 下 来 我 们 比较 | C? : comledul...|[a-z][a-z]) \b, 和 icom\bljedu\b|...\bl[a-z]j[a-z]N\b，。 在 后 一 个 表达 式 
中 ， 多 选 结构 之 后 的 \\b| 被 分 散 到 每 个 多 选 分 支 。 可 能 的 收益 就 是 ， 它 可 能 容许 一 个 多 选 分 支 能 够 匹配 ， 
但 多 选 分 支 之 后 的 '\b| 可 能 导致 这 个 匹配 不 成 功 ， 把 \b| 加 到 多 选 结构 之 内 ， 匹 配 失败 的 更 快 。 这 样 不 
需要 退出 多 选 结构 就 能 发 现 失败 。 

要 说 明 这 个 技巧 的 价值 ， 这 可 能 还 不 是 最 好 的 办 法 ， 因 为 它 只 是 适用 于 一 种 特殊 情形 ， 即 多 选 分 支 可 
能 能 够 匹配 ， 但 是 之 后 紧 接 的 字符 可 能 令 匹 配 失 败 。 在 本 章 中 我 们 会 看 到 一 个 更 合适 的 例子 一 一 请 参考 280 
页 关于 $OTHER * 的 讨论 。 

这 个 优化 是 有 风险 的 。 切 记 ， 使 用 这 个 功能 时 要 小 心 ， 不 要 因此 阻止 了 本 来 可 以 进行 的 其 他 优化 。 举 
例 来 说 ， 如 果 “ 分 散 的 ” 子 表 达 式 是 文字 文本 ， 那 么 把 。”(? : thislthat) : ) | BHA 'this: |that: | 就 违背 
so C255) 中 的 某 些 思想 。 各 种 优化 都 是 平等 的 ， 所 以 在 优化 时 请 务必 小 心 ， 不 要 
大 | ZJN 

在 能 够 进行 独立 结尾 锚 点 C256) 的 系统 上 把 正则 表达 式 末 尾 的 $| 分散， 也 会 遇 到 这 种 问题 。 在 这 
re RE, | (2 + comledul...)$| Lk icom$ledu$|...$| 快 得 多 (我 测试 了 各 种 系统 ， 只 有 Perl 使 用 了 这 种 
优化 ) 。 


























[| 日 日 Linux[| || www.linuxide.com [] [] 


消除 循环 

Unrolling the Loop 

Tee RA SCHEELS HB ES AC aie BPR ER A ON S| ESE AS EEN SA, PS AE 
WAC S| VEN IATL. MA, POA BUN CASS AS, APE AB, FOU AR 
坏 ” 的 搁 巧 。 对 某 些 常用 的 表达 式 来 说 ， 它 的 加 速效 果 很 明显 。 举 例 来 说， 用 它 改造 本 草 开 涉 《二 226) 会 
进行 无 休止 下 配 的 表达 式 ， 能 够 在 有 限 的 时 间 内 报告 匹配 失败 ， 而 如 果 能 够 岂 配 ， 速 度 也 会 更 快 。 

此 处 说 的 “循环 ”采用 的 是 ”thislthat|...〉* | 之 类 问题 中 星 号 代表 的 意义 。 之 前 的 无 休止 匹配 " CW 
A" "| 其实 就 属于 此 类 。 如 采 无 法 匹配 ， 这 个 表达 式 需 要 近乎 无 限 的 时 间 进 行 答 试 ， 所 以 必须 改 

此 技巧 有 两 种 不 同 的 实现 途径 : 

1. 我 们 可 以 检查 ， 在 各 种 典型 匹配 中 ， | OAO 多 | 中 的 哪个 部 分 真正 匹配 成 功 了 ， 这 样 就 能 
留 下 子 表达 式 的 痕迹 。 再 根据 刚刚 用 现 的 模式 ， 重 新 构建 局 效 的 表达 式 。 这 个 《或 许 联 系 不 那么 系 蜜 的) 
概念 模型 就 是 一 个 大 球 ， 它 表示 表达 式 “(.…) 类 | ， 球 在 某 些 文本 上 滚动 。'(...) | 内 的 元 素 总 是 能 够 
匹配 某 些 文本 ， 这 样 承 留 下 了 痕迹 ， 束 好 像 是 把 脏 兮 兮 的 雪 球 在 地 毯 上 浚 过 去 一 样 。 

2. 另 一 个 办 法 是 ， 从 更 高 的 层面 考察 我 们 期 望 用 于 匹配 的 结构 。 然 后 根据 我 们 认为 的 钊 见 情形 ， 对 可 
能 出 现 的 目标 字符 串 做 出 非 正式 假设 。 从 这 个 角度 出 发 构建 有 效 的 表达 式 。 

无 论 采 取 哪 种 办 法 ， 得 到 的 表达 式 都 是 一 样 的 。 我 自 先 讲解 第 一 种 思路 ， 然 后 介绍 如 何 通 过 第 二 种 思 
路 取得 同样 的 结果 。 

为 了 保证 例子 容易 看 懂 ， 并 尽 可 能 广泛 地 使 用 ， 我 会 使 用 C. | 来 代替 所 有 括号 ， 如 果 程 序 支持 非 
捕获 型 括号 C2: ...) | 能 够 支持 ， 使 用 它们 能 提高 效率 。 然 后 会 讲解 固化 分 组 C139) 和 占有 优先 量 
词 (142) 的 使 用 。 























方法 1: 依据 经 验 构建 正则 表达 式 


Method 1:Building a Regex From Past Experiences 
在 分 析 "CNIIANA"]+) "IRD, FRR AS RIE OR he Sg EB a ET OR 
法 。 举 例 来 说 ， 如 果 目 标 字 符 串 是 ‘" hi" ，， 那 么 使 用 的 自 表达 式 就 是 "A" +" 。 这 说 明 ， 全 局 匹配 
使 用 了 最 开始 的 '" ，， 然 后 是 多 选 分 支 [[N\" ]+| ， 然 后 是 末尾 的 '" | 。 
如 果 目 标 字 符 串 是 : 
" he said\ " hi there\ ”and left " 
l E LIORA IKASGE. mee \\"14" - E 
对 应 的 表达 式 束 是 一 一 一 一 一 一 。 在 这 个 例子 里 以 及 表 6-2 中 ， 我 标 
记 了 对 应 的 正则 表达 式 ， 让 模式 更 显眼 。 如 果 我 们 能 对 每 个 输入 字符 串 构 造 特定 的 表达 式 当 然 很 好 。 这 不 
可 能 ， 但 我 们 能 够 找 出 一 些 利 用 的 模式 ， 构 造 效 率 更 高 ， 又 不 失 通 用 性 的 正则 表达 式 。 
现在 来 看 表 6-2 前 面 的 四 个 例子 。 下 画 线 标注 的 部 分 表示 “一 个 转 义 元 素 ， 然 后 是 更 多 的 正 第 字符 ”。 这 
[ 
meee LO \\"] + 
就 是 关键 : ARLE, FRESS, ARE"), Rae ys MM i — 。 综 合 起 来 就 
TANNn ] (NG hee he +) * | 
得 到 — 。 这 个 特殊 的 例子 说 明 ， 通 用 模式 可 以 用 来 构建 许多 有 用 的 表达 式 。 
表 6-2: 消除 循环 的 具体 情况 

















[| 日 日 Linux[| || www.linuxidc.com [] [] 


目标 字符 串 对 应 的 表达 式 


"hi there" oll Wan ae 

"Just one \" here" LN r 

"some \"quoted\" things" |["(*\\"] +] GANA" +" 

"with \"a\" and \"b\"." [PAV] HEI N] + BR CNN) + NN) + ANN 
Mak nt n *\\"): A R 

"enpry \"\" quote" "E^" J+ Gee NA") +8 


构造 通用 的 “消除 循环 ”解法 
在 匹配 双 引 亏 字 符 串 时 ， 引 扎 目 身 和 转 义 和 糙 线 是 “特殊 ”的 一 一 因为 引号 能 够 表示 字符 串 的 结尾 ， 反 笠 
线 表示 它 之 后 的 字符 不 会 终结 整个 字符 串 。 在 其 他 情况 下 ， [AN " ]| 就 是 普通 的 点 号 。 考 察 它们 如 何 组 合 


| 
CA\\"] + (ANA +) % 
为 ee 








) normal+ (special normal+) * ; 
， 首 移 它 符合 通用 的 模式 
MAND E (AQP O\\™ I] 4) 4 

FASTA mH SS, LA 人 。 不 邓 的 是 ， 表 6-2 中 下 面 两 个 例子 无 
法 由 这 个 表达 式 匹 配 。 症 结 在 于 ， 目 前 这 个 正则 表达 式 的 两 个 [AN " ]+| 要 求 字 符 串 以 一 个 普通 字符 开 
始 ， 然 后 是 任何 数目 的 特殊 字符 。 从 这 个 例子 中 我 们 可 以 看 到 ， 筷 并 不 能 应 付 所 有 情况 一 一 字符 串 可 能 以 
转 义 元 系 开 头 和 结尾 ， 一 行 中 间 也 可 能 包含 两 个 转 义 元 素 。 我 们 可 以 答 试 把 两 个 加 号 改 成 星 号 : 
nn pa" (AN. ee a Liai 

RS 





。 这 会 达到 我 们 期 望 的 结果 吗 ? 更 重要 的 是 ， 它 是 合 会 产生 负面 影 啊 ? 

束 期 望 的 结果 来 说 ,很 容易 看 到 所 有 的 例子 部 能 罗 配 。 事 实 上 ， 即 使 是 "\"\"" 这 样 的 字符 串 都 
能 匹配 。 这 当然 很 不 错 。 不 过 ， 我 们 还 需要 确认 ， 这 样 重大 的 改变 ， 是 个 会 导致 预料 之 外 的 结 末 。 格 却 不 
对 的 引 亏 字符 串 能 个 匹配 呢 ? 格式 正确 的 引 亏 字符 种 是 个 可 能 无 法 匹配 呢 ? 效率 叉 如 何 呢 ? 


[+r 和 wh A "Iki kW 
仔细 看 看 OOVA AVID 1。 开头 的 Tv[IAN\"]x， 只 会 应 用 一 次 ， 这 没有 问题 ; € 
匹配 开头 必须 出 现 的 引号 ， 以 及 之 后 的 任何 普通 字符 。 这 没有 问题 。 接 下 来 的 『 OUD" pe) x 是 由 星 
号 限定 的 ， 所 以 不 匹配 任何 字符 也 能 够 成 功 。 也 就 是 说 ， 去 掉 这 一 部 分 仍然 会 得 到 一 个 合法 的 表达 式 。 这 
样 我 们 就 得 到 " [AN\" ]x "| ， 这 显然 没有 问题 一 它 代表 了 常见 的 ， 也 就 是 没有 转 义 元 素 的 情形 。 
Ko EOSS LEKAS SAk TANNA AY 
另 一 方面 ， tg R — 部 分 匹配 了 一 这， 其 实 束 等 价 于 


twa Wis 11 
， 即 使 结尾 的 T[A\" ]* | 没有 匹配 任何 文本 (其 实 就 是 "OSE ) ， 也 没有 问题 。 照 这 样 分 析 


下 去 《如果 没 记 错 的 话 ， 这 就 古 蜗 中 代数 中 的 “ 照 此 类 推 (by induction) ”) ， 我 们 发 现 ， 这 样 的 改动 其 实 
是 没有 任何 问题 的 。 
所 以 ， 我 们 最 后 得 到 的 ， 用 来 匹配 包括 转 义 引号 的 引号 字符 串 的 正则 表达 式 束 是 : 
ET PANTA (ANa kath ka x") 
N 














真正 的 “消除 循环 ?解法 
The Real" Unrolling-the-Loop"Pattern 


| A "] * A WW 
综合 起 来 ， 匹 配 包括 转 义 引号 的 双 引 号 字符 串 正则 表达 式 就 是 OOV TOANT |. 
和 原来 的 表达 式 能 够 匹配 的 结果 是 完全 一 致 的 。 但 是 循环 消除 之 后 ， 表 达 式 能 够 在 有 限 的 时 间 内 结束 下 
配 。 不 但 效率 高 得 多 ， 并 且 避 免 了 无 休止 匹配 ， 
消除 循环 常用 的 解法 是 





[| 日 Linux[| [|] www.linuxidc.com |] [] 


| opening normal * (special normal * ) * closing | 


iE 976 VR LE VL At 
ET [7% J 大 (ANa Lm i) * ) al 
避免 == 中 的 无 休止 匹配 ， 有 三 点 很 重要 : 


1) Special 部 分 和 normal 部 分 匹配 的 开头 不 能 重合 。 

special 和 normal 部 分 的 子 表达 陈 不 能 从 同一 位 置 开 始 匹 配 。 在 上 例 中 ，normal 部 分 是 1|[ 八 "]|， 
special 部 分 是 \\.| ， 显 然 它们 不 能 匹配 同样 的 字符 ， 因 为 后 者 要 求 以 反 斜 线 开 涉 ， 而 前 者 不 容许 出 现 开头 
的 反 斜 线 。 

另 一 方面 ， \ 和 [A"] 都 能 够 从 ‘" Hello.\n "开始 匹配 ， 所 以 它们 不 符合 这 种 解法 。 如 果 二 者 能 
人 够 从 字符 串 中 的 同一 位 置 开 始 匹配 ， 台 无 法 确定 该 使 用 哪 一 个 ， 这 种 不 确定 就 会 造成 无 休止 匹配 。: 


6 9 
makudonarudo 


UDUDDDODDDDDOD ;的 例子 说 明了 这 一 点 (号 227) 。 如 果 无 法 匹配 (或 是 POSIX NFA 引 擎 在 任何 情况 下 
的 匹配 ) ， 束 必须 莹 试 所 有 的 可 能 性 。 这 非常 粳 糙 ， 因 为 改进 这 个 表达 陈 的 首要 原因 了 驶 是 为 了 避免 这 种 情 
VL 

如 末 我 们 确信 ，special 和 normal 部 分 不 能 匹配 同样 的 字符 ， 残 可 以 将 Special 部 分 用 作 检 查 点 ， 消 除 
normal 部 分 在 1 (...) * 的 各 轮 和 从 代 时 匹配 同样 文本 造成 的 不 确定 性 。 如 果 我 们 确信 special 部 分 和 normal 
部 分 永远 不 会 匹配 同样 的 文本 ， 则 特定 目标 字符 串 的 匹配 中 存在 唯一 的 Special 部 分 和 normal 部 分 的 “组 合 序 
列 ”。 检 和 碍 这 个 序列 比 检查 成 和 干 上 万 种 可 能 要 快 得 多 ， 于 是 避免 了 无 休止 匹配 。 

2) normal 部 分 必须 匹配 至 少 一 个 字符 

第 二 点 是 ， 如 果 normal 部 分 需要 岂 配 字符 才能 成 功 ， 则 它 必须 匹配 至 少 一 个 字符 。 如 果 我 们 能 够 匹配 
成 功 ， 而 不 占用 任何 字符 ， 那 么 下 面 的 字符 仍然 必须 由 | (special normal x ) 大 | ANAT RRO AC, CF 
BOAT TE BS JERA C.. x) 大 的 问题 。 














[NAN ] * NN 

选择 | AOD 大 | 作为 special 部 分 就 违背 了 这 条 规定 。 注定 十 
ASREARE EIA TL, GRA ESRVL ECS " Tubby’ (会 失败 ) ， 在 得 到 匹配 失败 的 结论 之 前 ， 引 擎 必须 演 试 知 干 
个 N "> | 匹配 "Tubby' 的 每 一 种 可 能 。 因 为 Special 部 分 可 以 不 匹配 任何 字符 ， 所 以 它 无 法 作为 检查 点 。 

3) special 部 分 必须 是 回 化 的 

special “部 分 匹配 的 文本 不 能 由 访 部 分 的 多 次 迭代 完成 。 如 果 需 要 匹配 Pascal 中 可 能 出 现 的 注释 {..….} 和 
空白 。 能 够 匹配 注释 部 分 的 正则 表达 式 是 MAHA ， 所 以 整个 正则 表达 式 就 是 ”CNMI[IAHJXA\) |-+) 类 | 
〈 它 永远 不 会 终止 ) 。 或 许 ， 你 会 这 样 划分 normal 和 Special 部 分 : 








Special normal 
e+) SEISA 


'normal* (special normal*) * | 





使 用 我 们 学 会 的 的 解法 ， 我 们 得 到 | ANGAD * 
(I 
一 一 一 一 。 现在 来 看 这 个 字符 串 

{comment}:…:{another}:: 

匹配 连续 空格 的 可 能 是 单个 .+| ， 或 多 个 1.+| 匹配 (每 个 匹配 一 个 空格 )， 或 是 多 个 .+| 的 组 合 
(每 个 匹配 不 同 数目 的 空格 )。 这 很 像 之 前 的 235398885828 的 问题 。 

此 问题 的 根源 在 于 ，special 部 分 既 能 够 匹配 很 长 的 文本 ， 也 能 通过 ©...) 关 匹 配 其 中 的 部 分 文本 。 非 
确定 性 开 了 “多 种 方式 匹配 同样 文本 ”的 口子 。 

如 果 存 在 全 局 匹配 ， 很 可 能 + 只 匹配 一 次 ， 但 是 如 果 不 存 在 全 局 匹配 (例如 把 这 个 表达 式 作为 另 一 
个 大 的 表达 式 的 一 部 分 )， 引 擎 就 必须 对 每 一 段 空 格 测试 1 C+) 类 | 所 有 的 可 能 。 这 需要 时 间 ， 但 这 对 全 


局 匹配 无 益 。 因 为 Special 部 分 应 该 作为 检查 点 ， MRR CET ARTES OF ie ticlinuxidc.com Hal 











解雇 的 方法 融 是 ， 傈 证 Special 部 分 只 能 够 号 配 固定 长 度 的 空格 。 因 为 它 必 须 匹 配 全 少 一 个 空格 ， 但 可 
能 匹配 更 多 ， 我 们 用 “| 作为 special 部 分 ， 用 “” C.. * ) 来 保证 special 的 多 重 应 用 能 匹配 多 个 空格 。 
这 个 例 了 于 很 适合 讲解 ， 但 是 实际 应 用 起 来 ， 效 率 更 高 的 办 法 可 能 是 交换 special 和 normal KIAI: 
[ 
ex (\ { S] }*\}°*) * | 
——————— 


A) Ae 4 tt Pascal Fe FF VERE LE RZ, Th BOO A TEU hh BE CH JE MH normal fh VeA ay 
见 的 文本 。 

寻找 通用 套路 

如 果 你 真正 掌握 了 这 些 规则 (可 能 需要 反复 阅读 和 一 些 实践 )， 你 就 能 把 这 几 条 推广 开 来 ， 作 为 指导 
规则 ， 用 来 识别 可 能 造成 无 休止 匹配 的 正则 表达 式 。 如 果 有 若干 个 量词 存在 于 不 同 的 层面 ， 例 如 1 C.. 
x) 大 |， 我们 束 必 须 小 心 对 每 ， 但 是 许多 这 村 的 表达 式 却 是 完全 没有 问题 的 。 例 如 : 

© | (Re: -*) 大 | 用 来 匹配 任意 数目 的 人 Re: :序列 《可 以 用 来 清除 邮件 主题 中 的 'Subject: ‘Re: 
‘Re: Re: hey’) 。 

e | (-*\$[0-9]+) * , 用 来 匹配 美元 金额 ， 可 能 有 空格 作 分 隔 。 

e | (.x*\n) +) 用 来 匹配 一 行 或 多 行文 本 。《〈 事 实 上 ， 如 果 点 号 不 能 匹配 换行 符 ， 而 这 个 子 表 达 式 之 
后 勾 有 列 的 元 聚 导致 匹配 失败 ， 残 会 造成 无 休止 匹配 ) 。 

这 些 表达 式 都 没有 问题 ， 因 为 每 一 个 都 有 检查 点 ， 也 就 不 会 产生 “多 种 方式 匹配 同样 文本 ”的 问题 。 在 
第 一 个 里 面 是 Re | ， 第 二 个 里 面 是 \$ | ， 第 三 个 〈 如 果 点 号 不 能 匹配 换行 符 ) Nn, . 


方法 2: 目 顶 同 下 的 视角 



































Method 2:A Top-Down View 

还 记得 吗 ? 我 说 过 ,“ 消 除 循环 ”有 两 种 办 法 。 如 果 采 用 第 二 种 办 法 ， 开 始 只 匹配 目标 字符 串 中 最 第 见 
的 部 分 ， 然 后 增加 对 非常 见 情况 的 处 理 。 让 我 们 来 看 会 造成 无 休止 匹配 的 表达 式 AAO ) 期 望 
匹配 的 文本 以 及 它 可 能 应 用 的 场合 。 我 认为 ， 通 稍 情 况 下 引用 字符 吝 中 的 普通 字符 会 比 转 义 字符 更 多 ， 所 
Dh! PA" +) 承担 了 大 部 分 工作 。 \\.| 只 需要 用 来 处 理 偶 然 出 现 的 转 义 字符 。 我 们 可 以 使 用 多 选 结构 来 应 
付 两 种 情况 ， 但 糟糕 的 是 ， 为 了 处 理 少 部 分 “〈 雇 不 可 能 是 大 部 分 ) 转 义 字符 ， 这 样 做 会 降低 效率 。 

如 果 我 们 认为 [AN " ]+| 能 够 匹配 字符 串 中 的 绝 大 部 分 字符 ， 就 知道 如 果 匹 配 停止 ， 大 概 是 遇 到 了 闭 
引号 或 者 是 转 义 字符 。 如 果 是 转 义 字符 ， 后 面容 许 出 现 更 多 的 字符 (无 论 是 什么 ) ， 然 后 开始 A "I 
Ht FO Vc. BERA" ]+ 的 匹配 终止 ， 我 们 都 回 到 相同 的 处 境 : 期 望 出 现 一 个 闭 引 号 或 者 是 为 一 个 转 
X 








我 们 可 以 很 日 然 地 用 一 个 表达 式 来 表达 它 ， 得 到 与 方法 1 同样 的 结 
E? kat wi: a ; baa +) x") 
NÁ 


我 们 知道 ， 匹 配 每 次 进行 到 = 标记 的 位 置 时 ， 应 该 出 现 一 个 反 笠 线 或 者 财 双 引号 。 如 采 反 和 斜 线 能 
配 ， 束 匹配 它 ， 然 后 是 被 转 义 的 字符 ， 然 后 是 更 多 的 字符 ， 直 到 下 一 次 到 这 <“ 闭 引 号 或 者 反 斜 线 " 的 位 置 。 
和 之 前 一 样 ， 最 开始 的 非 引 用 内 容 或 是 引 写 内 的 文本 可 能 为 空 。 我 们 可 以 把 两 个 加 号 改 成 星 写 ， 这 样 
束 得 到 与 264 页 相同 的 表达 式 。 





方法 3: 匹配 主机 各 


Method 3:An Internet Hostname 

上 面 介 绍 了 两 种 消除 循环 的 办 法 ， 不 过 我 还 愿意 介绍 另 一 种 办 法 。 在 用 正则 表达 式 匹 配 如 
www.yahoo.com 这 样 的 主机 名 时 ， 它 令 我 瑚 惊 。 主 机 名 主要 是 用 点 写 分 隔 的 子 域名 的 序列 ， 准 确 地 划 定 子 
域名 的 匹配 规范 很 麻烦 (203〉 ， 为 了 保证 清晰 ， 我 们 使 用 [a-z], 来 匹配 子 域名 。 

如 果子 域名 是 「[a-z]+， ， 我 们 希望 得 到 点 号 分 隔 的 子 域名 序列 ， 首 先 要 匹配 第 一 个 子 域名 。 之 后 其 他 


的 子 域名 以 点 号 开头 。 用 正则 表达 式 来 表示 ， 就 是 FapgfCF 世 iDuXD] (Pw A RRR CO HITT 站 











fanz] +(a-z1+) *1 | S 
出 现 的 各 种 标记 ， 残 得 到 一 一 一 一 , PACHER AR X? 
JI T WHARE, RIZA ET VBI SS ETB Bo WRIA eS "O 
内 的 文本 ， 包 括 normal 部 分 [AN\" ]| ， 由 special 部 分 \\. | 分隔， 就 能 套用 消除 循环 的 解法 ， 得 到 


Ginea 4) ka 
— 中 ， 也 残 是 在 讨论 方法 1 中 的 茶 个 地 步 。 也 束 是 说 ， 从 概念 上 讲 ， 我 们 

能 够 把 由 点 号 分 隅 的 主机 名 的 问题 看 成 双 引 亏 字 符 吝 的 问题 ， 也 束 是 “由 转 义 元 陛 分 隅 的 非 较 义 元 妹 构 成 的 
序列 ”。 这 可 能 不 那么 二 观 ， 但 是 我 们 可 以 使 用 前 面 用 过 的 套路 。 

二 者 既 存 在 相似 性 ， 也 存在 区 别 。 在 方法 1 中 ， 我 们 改变 正则 表达 式 是 为 了 容许 normal 部 分 和 special 部 
分 之 后 出 现 空白， 但 是 这 里 不 容许 出 现 空 日 。 所 以 虽然 这 个 例子 与 之 前 的 并 非 完 全 相同 ， 但 也 属于 同一 
类 ， 同 样 可 以 用 来 证 明 消除 循环 的 技巧 的 强大 和 便捷 。 

子 域 名 的 例子 与 之 前 的 例子 有 两 大 区 列 : 

e 域 名 的 开始 和 结束 没有 分 界 符 。 

e 了 于 域名 的 normal 部 分 不 可 能 为 空 〈《 也 惑 是 说 两 个 点 号 不 能 祭 换 在 一 起 ， 点 号 也 不 能 出 现在 整个 域名 的 
开头 或 结尾 ) 。 对 双 引号 字符 串 来 说 ，normal 部 分 可 以 为 室 ， 即 使 按照 我 们 的 假设 它们 不 太 应 该 为 空 。 所 


| -A " Tra wis 
以 我 们 需要 把 【 “、 Gaa [ \\“] 冲 。 而 子 域名 的 例子 不 能 进行 这 种 修改 ， 因 为 special 部 分 是 分 隔 
符 ， 必 须 出 现 。 





— 








WLS 


Observations 

回 过 头 来 看 双 引 号 字符 串 的 例子 ， 表 达 式 PAW] OAA" 类 "| 有 许多 优点 ， 也 存在 一 些 
陷阱 。 

陷阱 : 

e 可 读 性 这 是 最 大 的 问题 ， 原 来 的 " CA" IN) +") 可 能 更 容易 一 眼看 懂 ， 我 们 放弃 了 可 读 性 来 

e 可 维护 性 ”可 维护 性 可 能 更 复杂 ， 因 为 任何 改动 都 必须 保持 对 两 个 [以 " ] 相 同 。 我 们 牺牲 了 可 维护 性 
来 退 求 效率 。 

好 处 : 

ee 如 末 不 能 匹配 ， 或 是 采用 POSIX NFA， 这 个 正则 表达 陈 不 会 进入 无 休止 匹配 。 因 为 进行 了 精心 
地 调 校 ， 特 定 的 文本 只 能 以 唯一 的 方式 匹配 ， 如 果 文 本 不 能 匹配 ， 引 擎 会 迅速 发 现 它 。 

e 还 是 速 度 。” 正则 表达 式 “ 操 作 连 续 性 (flow) ”很 好 ， 这 也 是 “流畅 运转 的 正则 表达 陈 ”( 吧 277) 的 主 
题 。 我 对 传统 型 NFA 进行 了 检测 ， 消 除 循环 之 后 的 表达 式 总 是 比 之 前 使 用 多 选 结构 的 表达 式 要 快 得 多 。 即 
使 匹配 能 够 成 功 ， 不 会 进入 无 休止 匹配 状态 时 ， 也 是 如 此 。 


使 用 固化 分 组 和 占有 优先 量词 


Using Atomic Grouping and Possessive Quantifiers 

iA!" AVIAN") * "| 之 所 以 会 进入 无 休止 匹配 的 状态 ， 问 题 在 于 ， 如 果 无 法 匹配 ， 它 会 陷 
入 徒劳 的 尝试 。 不 过 ， 如 果 存 在 匹配 ， 就 能 很 快 结 束 ， 因 为 [AN " ]+| 能 够 匹配 目标 字符 串 中 的 大 多 数字 
符 〈 也 就 是 之 前 讨论 过 的 normal 部 分 ) 。 因 为 “[.….]+| 通常 会 为 速度 优化 (247) ， 而 且 能 够 匹配 大 多 数 
字符 ， 外 面 的 '(...〉* | 量词 的 开销 因此 大 为 减少 。 

所 以 ， "CNIIAN 14) 类 "的 问题 就 在 于 ， 不 会 在 匹配 时 会 陷入 徒劳 的 尝试 ， 在 我 们 知道 毫 无 用 
处 的 备用 状态 之 中 不 断 回溯 。 我 们 知道 这 些 状态 毫 无 价值 ， 因 为 他 们 只 是 检查 同样 对 象 的 不 同 排列 〈 如 果 
labo) PREIEI foo’, WWA abc| 或 者 abcj (以 及 abcj ， ‘abc, 或 者 无 论 什么 形式 的 abc) ) 都 不 能 匹 
配 。 如 果 我 们 能 抛 茎 这 些 状 态 ， 正 则 表达 式 束 能 迅速 报告 匹配 失败 〉。 

抛弃 (或 者 是 忽 咯 这 些 状态 的 方法 有 丙种， 固体 份 阵 [Omi ea TS AAW Nide om [] 1 


























在 我 们 着 手 消 除 回溯 以 前 ， 我 希望 交换 多 选 分 支 的 顺序 ， 把 "人 (NIIANA"]+) 类 "| AB 
AANO * ") ， 这 样 匹 配 “ 普 通 ” 文 本 的 元 系 束 出 现在 第 一 位 。 前 几 章 中 我 们 已 经 数 次 提 到 过 ， 如 末 
两 个 或 两 个 以 上 的 多 选 分 支 能 够 在 同一 位 置 岂 配 ， 排 列 顺 序 的 时 候 就 要 小 心 ， 因 为 顺序 可 能 影响 到 已 配 的 
结果 。 但 对 于 本 例 来 说 ， 不 同 多 选 分 文 匹 配 的 是 不 同 的 文本 《〈 茶 个 多 选 分 文 在 一 处 能 够 瑟 配 ， 则 其 他 多 选 
4y SCTE UA AS BB DEA) ， 从 正确 匹配 的 角度 来 看 ， 顺 序 束 是 无 关 紧 要 的 ， 所 以 我 们 可 以 根据 清晰 或 效率 
的 要 求 来 选择 顺序 。 

使 用 占有 优先 量词 避免 无 体 止 匹配 

会 造成 无 休止 匹配 的 表达 式 " CD" ND" | 有 两 个 量词 。 我 们 可 以 把 其 中 一 个 改 为 占有 优先 
量词 ， 或 者 两 个 都 改 。 这 两 者 有 区 别 吗 ? 因为 大 多 数 回溯 的 麻烦 源 自 [...]+| 留 下 的 状态 ， 所 以 把 它 改 成 
占有 优先 是 我 的 第 一 想法 。 这 样 得 到 的 表达 式 ， 即 使 找 不 到 匹配 ， 速 度 也 很 快 。 不 过 ， 把 外 面 的 ” (...) 
大 改 成 占有 优先 会 抛 大 括号 内 的 所 有 备 选 状态 ， 其 中 包括 |[...]+| 和 多 选 结构 本 吴 的 备 选 状态 ， 所 以 如 
果 我 要 从 中 选取 一 个 的 话 ， 我 会 选取 后 者 。 

但 我 们 并 非 只 能 选择 一 个 ， 因 为 我 们 可 以 把 两 个 都 改 为 占有 优先 量词 。 具 体 哪 种 办 法 最 快 ， 可 能 取决 
于 占有 优先 量词 的 优化 情况 。 现 在 ， 只 有 Sun 的 Java regex package 支 持 这 种 表示 法 ， 所 以 我 的 测试 只 能 在 
Java 中 进行 ， 并 且 发 现 某 些 情形 下 其 中 一 种 组 合 更 快 。 我 原本 期 望 ， 使 用 两 个 占有 优先 量词 是 最 快 的 ， 所 
以 这 些 结果 让 我 相信 ，S$un 的 优化 还 不 够 彻底 。 

使 用 固化 分 组 避免 无 休止 匹配 

如 果 要 对 " GA'NO 类 "| 使 用 固化 分 组 ， 最 容易 想到 的 办 法 就 是 把 普通 括号 改 成 固化 分 组 括 
SB: l" CO SNT HNS) 类 "| 。 不 过 我 们 必须 知道 ， 在 抛弃 状态 的 问题 上 ，“ O SL 类 | 与 占有 
EM | (...|...) 类 +| 是 凶 然 不 同 的 。 

PoC). +) 在 完成 时 不 会 留 下 任何 状态 ， 相 反 ， | O >...|…) 大 | 只 是 消除 多 选 结构 每 次 迭代 
时 保留 的 状态 。 尾 号 是 独立 于 固化 分 组 的 ， 所 以 不 受 影 响 ， 这 个 表达 陈 仍 然 会 保留 “ 跳 过 本 轮 友 代 ” 的 备用 
状态 。 也 残 是 说 ， 回 调 中 的 状态 仍然 不 是 确定 的 最 终 状 态 。 我 们 和 希望 同时 消除 外 面 量 词 的 备用 状态 ， 上 所 以 
要 把 外 面 的 括号 也 改 成 固化 分 组 。 也 就 是 说 模拟 占有 优先 「〈...|.…) wt) 必须 用 到 O > (...|...) 
xX) | 。 

解决 无 休止 匹配 的 问题 时 ， Cp 大 +| 和 1 (? >...|…) 大 | 都 很 有 用 ， 但 是 它们 在 抛弃 状态 的 
选择 和 时 间 上 却 是 不 同 的 〈 更 多 的 甜 异 ， 请 参阅 173 页 ) 。 


简单 的 消除 循环 的 例子 



































Short Unrolling Examples 

PLE BOTA S fe STAR EPA EA, ORB PE LB, ACE aA RIE 
消除 “多 字符 ?引文 中 的 循环 

在 第 4 章 第 167 页 ， 我 们 看 到 这 个 例子 : 





<B> # “匹配 开头 的 <B> 
# 现在 匹配 尽 可 能 多 的 … 
(?! </?B> ) # 如 果 不 是 <CB> 也 不 是 </B> … 
# …: 任 何人 学 符 都 没 问 题 
) * # (匹配 优先 量词 ) 
</B> # <ANNO> 直 到 结束 边界 


normal 部 分 是 [^<]; ，special 部 分 是 (? ! </? B>) < ， 下 面 是 改进 的 版 本 : 


[| 日 日 Linux[| || www.linuxidc.com [] [] 


<B> # 匹配 开头 的 <B> 
(FS fal # 匹配 任意 数量 的 "normal"… 
(72 # AEREN 
(2?! < /? B> ) # 妇 采 不 是 <B> 业 不 是 志 /By> 
# 匹配 "special" 
[| # 然后 继续 匹配 任意 数量 的 "normal" 
# 
</B> # “最 后 匹配 结尾 的 </B> 
这 里 固化 分 组 并 不 是 必须 的 ， 但 如 果 只 能 部 分 匹配 ， 使 用 固化 分 组 能 够 提高 速度 。 


消除 连续 行 死 配 例子 中 的 循环 
连续 行 的 例子 出 现在 前 一 章 的 开头 (186) ， 当 时 使 用 的 表达 式 是 Aw+= (Anno xo AER 
这 很 适合 应 用 这 种 技巧 : 
^ \w+ = E 开头 的 六 宇和 "= 
# ”现在 读 取 OLAR) Mh... 
( 
Co | # "normal"* 
(a> \X, Teen l* 14 # ( “special” "normal"*) * 
) 
与 上 一 个 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 它 能 让 引擎 更 快 地 报告 匹配 失败 。 
消 际 CSV 正 则 表达 式 中 的 循环 
第 5 曹 用 了 很 长 的 篇 幅 讨 论 CSV 的 处 理 ， 最 后 得 到 第 216 页 的 代码 : 
Ce re 
(2:# 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) . .. 
" # (起 始 双 引号 ) 
( (? 。 Kú TT ] | LA SS A ) 大 ) 
" # (结束 双 引 号 ) 





| 
E ss. RAS FERIR.. a 
LL 
) 

当时 的 结论 是 ， 最 好 在 开头 添加 \G| ， 这 样 就 能 避免 驱动 过 程 带 来 的 麻烦 ， 并 且 效 率 也 会 提高 。 现 在 
我 们 知道 如 何 消除 循环 ， 就 可 以 此 技巧 来 看 看 如 何 应 用 这 个 例子 。 

用 来 匹配 微软 的 CSV 字 符 串 的 正则 表达 式 是 CO : [A"]1"" ) xj ， 它 看 起 来 很 不 错 。 其 实 ， 这 个 
表达 式 已 经 区 分 了 normal 和 special 部 分 : [A"]| 和 " "| 。 下 面 我 们 把 这 个 表达 式 写 清楚 ， 用 原来 的 Perl 
代码 说 明 消 除 循环 的 过 程 : 





中 上 局 Dinux [|] www.linuxidce.com |] [] 


while (Sline =~ m{ 
Scii kirt 
28 
# 或 者 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ? 
" # 起 始 双 引号 


( (?> aii Nic ) (?> "un Hiat ) 大 ) 
"of Be RIA] F 
E |. RA X 
| 
# ..。 或 者 是 引号 和 运 号 之 外 的 文本 ... 


L ht 3 
) 
} gx) 


Lf (definea 62) J 
Sfield = $2; 
} else { 
Sfield = pli 
Sfielda == ay m "rgy 
} 
print "[$field]"; # 输出 字段 的 值 以 供 调试 
现在 处 理 $Sfield... 
} 


如 其 他 的 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 可 以 提高 效率 。 

消除 C 语 言 注释 匹配 的 循环 

Unrolling C Comments 

现在 来 看 个 匹配 更 复杂 字符 串 时 消除 循环 的 例子 。 在 C 语 言 中 ， 注 释 以 /大 开头 ， 关 /结尾 ， 可 以 有 多 
ÍT, BARRE 〈C++、Java 和 C 夫 也 容许 这 种 形式 的 注释 ) 。 匹 配 此 类 注释 的 正则 表达 式 在 许多 情况 下 都 
有 用 ， 例 如 构建 去 挥 注释 的 过 小 程 订 。 写 这 个 程序 时 我 育 先 想到 的 就 古 消 除 循环 ， 而 这 个 技巧 现在 已 经 成 
为 我 的 正则 表达 式 宝 库 中 的 午 要 疙 备 。 

真有 的 需要 消除 吗 

我 在 20 世纪 90 年 代 早 期 束 开 始 开 友 本 节 讨 论 的 这 个 正则 表达 式 。 在 那 之 前 ， 人 们 认为 用 正则 表达 式 
PLAC C 语言 的 注释 即使 不 是 不 可 能 ， 也 是 很 困难 的 事情 ， 所 以 一 些 可 行 的 办 法 由 我 开发 出 来 之 后 ， 束 成 为 
岂 配 C 语 言 注 释 的 标准 方法 。 不 过 ， 在 Perl 引 入 忽略 优先 量词 之 后 ， 出 现 了 简单 得 多 的 办 法 : 使 用 能 匹配 所 
有 字符 的 点 号 人 湾 . 类 ? \ 类 /| 。 

在 我 写 程序 的 时 候 忽略 优先 量词 还 没有 出 现 ， 如 末 当 时 有 这 种 现成 的 特性 ， 吏 不 用 费 这 么 多 周折 了 。 
不 过 ， 我 的 解决 办 法 仍然 是 有 效 的 ， 因 为 即使 在 首次 支持 忽略 优先 量词 的 那 一 版 Perl 中 ， 使 用 消除 循环 技 
巧 的 程序 仍然 要 比 使 用 忽略 优先 量词 的 快 得 多 (我 做 了 许多 种 测试 ， 有 时 快 50%， 也 有 时 快 360%) 。 

不 过 ，Perl 现在 绽 合 了 各 种 优化 措施 ， 形 势 就 其 倒 过 来 ， 忽 略 优先 量词 的 程序 要 快 上 50% 到 550%。 所 

以 我 现在 使 用 IAx* «2? \X/| 来 匹配 C 语 言 的 注释 。 
XERRA, MELE C 语言 注视 用 不 痢 请 除 循环 的 技巧 了 ? 如 采 引 擎 不 文 持 忽略 优先 量词 ， 消 除 
循环 的 价值 吏 能 体现 出 来 。 也 不 是 所 有 的 正则 引擎 都 能 绽 合 各 种 优化 : 在 我 测试 的 其 他 任何 语言 中 ， 消 除 
了 循环 的 程序 都 要 更 快 一 一 最 快 的 时 候 速 度 相差 60 倍 ! 消除 循环 的 技巧 确实 很 有 用 ， 所 以 下 文 讲解 如 何 用 
它 来 中 配 C 语 言 注释 。 

因为 匹配 C 语言 注释 时 不 存在 双 引 号 字符 串 中 转 义 字符 \" 的 问题 ， 可 能 有 人 觉得 事情 会 比较 简单 ， 但 
ISS Ae. HAX EKARA SIL PSP ELT) FT WIECH] 站 




















题 ， 但 不 能 匹配 /大 * some comment here x 类/， 因 为 其 中 还 有 “类 :， 而 这 是 必须 匹配 的 ， 所 以 我 们 需要 另外 
的 办 法 。 

换 更 清晰 的 表示 方法 

你 可 能 觉得 Ax[A 类 ] 关 \ 类 /| 难以 阅读 ， 即 使 本 书 的 体例 已 经 尽量 做 到 容易 看 懂 。 但 不 幸 的 是 ， 注 释 
部 分 的 边界 人 符 ' 关 :本 映 承 是 正则 表达 式 的 元 字符 ， 所 以 得 使 用 反 和 斜 线 转 义 ， 结 果 正 则 表达 式 看 起 来 让 人 头 
疼 。 为 了 看 得 更 清楚 ， 我 们 在 这 个 例子 中 使 用 /x...x/， 而 不 是 /类 ... 湾 /。 经 过 这 个 细微 的 改动 ， 1 人 类 [人 类 ] 
炎 \ 火 /| 变 成 了 更 容易 看 懂 的 “MX[Ax]xx/| 。 这 个 表达 式 会 随 着 我 们 的 讲解 变 得 越 来 越 复 杂 ， 到 时 你 会 发 现 
这 个 改动 的 价值 。 

直接 的 办 法 

在 第 5 章 〈 嗓 196) ， 我 给 出 了 匹配 分 隔 符 之 内 文本 的 公式 : 

1. 匹 配 起 始 分 隔 符 ; 

2. 几 配 正 文 : 匹配 < 除 结束 分 隔 符 之 外 的 任何 字符 ” 

3. 上 匹配 结束 分 隔 符 。 

现在 我 们 的 程序 以 /x 和 x/ 作 为 开始 和 结束 分 隔 符 ， 它 似乎 很 符合 这 个 模式 。 难 处 在 于 匹配 “ 除 结束 分 隔 
从 之 外 的 任何 字符 ”。 如 果 结 束 分 阳 符 是 单个 字符 ， 我 们 可 以 用 排除 型 字符 组 。 但 字符 组 不 能 用 来 进行 多 字 
符 匹配 ， 不 过 如 果 能 使 用 否定 型 顺序 环视 ， 我 们 就 能 使 用 「『(? : O ! x/) .) 大 | 。 这 就 是 除 结束 分 
陪 符 之 外 的 任何 字符 | o 

于 是 我 们 得 到 /x (? : Q ! x/) .) xx/| 。 它 没有 问题 ， 但 速度 很 慢 〈 在 我 做 的 一 些 测 试 中 ， 速 度 
要 比 下 面 的 表达 式 慢 几 百 倍 ) 。 这 个 思路 很 有 有用， 但 缺乏 实用 性 ， 因 为 几乎 所 有 支持 顺序 环视 的 流派 都 支 
持 忽略 优先 量词 ， 所 以 效率 并 不 是 问题 ， 你 完全 可 以 用 人 MX 大 ? x/| 。 

那么 ， 顺 着 这 种 分 三 步 走 的 思路 ， 是 人 否 有 其 他 办 法 匹配 第 一 个 x/ 之 前 的 文本 ? 能 想到 的 办 法 有 两 个 。 
之 一 是 把 X 作 为 开始 分 隔 符 和 结束 分 隔 符 ， 也 就 是 说 ， 匹 配 除 x 之 外 的 任何 字符 ， 以 及 之 后 字符 不 为 斜 线 的 
Xo XIF, “ 除 结束 分 隔 符 之 外 的 任何 字符 ? 丈 成 了 : 

e 除 x 之 外 的 任何 字符 : |[ 人 x]| 。 

。 之 后 字符 不 是 斜 线 的 x: Tx] 。 

这 样 得 到 AND * | 来 匹配 主体 文本 ， MX (AIND x/) 来 匹配 整个 注释 。 我 们 会 发 现 这 
条 路 行 不 通 。 

FHT NEE, WARE x ZARA SERRA Eo OER RD BFE PAE A EAP: 

e 除 斜 线 外 的 任何 字符 : T] 。 

e。 紧 跟 在 x 之 后 的 斜 线 : XN] 。 

于 是 用 GMIN] x; 匹配 主体 文本 ， AM MA * x/) 匹配 整个 注释 。 

不 幸 的 是 ， 这 同样 是 死路 。 

WRA x axax 大 X/| 来 匹配 1/xx:foo:xx”， 在 :fo0-* 之 后 ， 第 一 个 x 由 'x[ 和 | 匹配 ， 这 当然 没有 

e mä 

am. ez, CO poe, mA x MARRURA. TEREFE, TIAxd 
LENAR, ARESU LE. 

[x AMIN xx; 也 不 能 匹配 5/x/-foo:/x/*” 《整个 注释 都 应 该 匹配 ) 。 如 果 注 释 结 尾 后 紧 跟 斜 线 ， 
表达 式 罗 配 的 内 容 会 超过 注释 的 结束 分 职 人 符 〈 这 也 是 其 他 解法 的 问题 。 而 在 本 例 中 ， 回 渊 可 能 有 些 令 人 
迷惑 ， 所 以 读者 最 好 和 弄 明 白 1/x (AMN *x 为 什么 能 匹配 





























Years = days /x divide x//365, /x assume non-leap year x/ 
二 
(可 以 在 空余 时 间 好 好 想 想 这 个 问题 。) 


a a x[ 和 | 匹配 了 结尾 的 ...xx/。 如 果 我 们 用 
A [| ieoi i www.linuxidc.com |] [| 


ix ([Ax]xHVD *x/) 。 我 们 认为 ， 添 加 加 号 之 后 ， “x+[A] | 匹配 以 非 斜 线 字 符 结尾 的 一 连 串 x。 确 实 它 
能 够 这 样 匹 配 ， 但 因为 回溯 “ 斜 线 之 外 的 任意 字符 ”仍然 可 以 是 x。 首 先 ， 匹 配 优 先 的 “x+| 匹配 我 们 需要 的 
额外 的 x， 但 是 如 和 果 全 局 匹配 需要 ， 回 渊 会 逐个 释放 它们 。 上 所 以 它 仍 然 会 瑟 配 过 多 内 容 : 
/xx A xx/ foo() /xx B xx/ 
ii 
要 解决 这 个 问题 ， 还 得 回 到 之 前 介绍 的 办 法 : EMA a BRAN WOR BT ARFI 


i 
— TT 、 ieee | ees x+[*/x 
不 是 斜 线 的 一 些 x” 其 实 就 是 除 LAINAT DAFA 








i 


MU) ， 它 不 会 匹配 XX 炸 / ， 

连 串 x 中 表示 注释 结束 的 那个 x。 事 实 上 ， 它 还 有 个 问题 ， 就 是 无 法 匹配 注释 结束 之 前 的 任意 多 个 x， 所 以 

会 在 PE , 停 下 来 。 因 为 我 们 预计 结尾 分 隔 符 前 只 有 -一 个 x， 所 以 必须 加 入 xH 处 理 这 种 情况 。 
于 是 得 到 MX axax] xx+/| ， 匹 配 最 终 的 注释 。 


在 自然 语言 和 正则 表达 式 之 间 翻 译 


第 273 页 讨论 用 来 匹配 C 注释 “ 除 结束 分 隔 符 之 外 的 任何 字符 ”的 两 种 方法 时 ， 我 提 
到 两 种 办 法 : 

Xx， 之 后 的 字符 不 是 儿 线 : xi^] 

针线 ， 之 前 的 字符 不 是 x: [^x] /| 


这 种 做 法 并 不 正式 一 一 自然 语言 的 描述 与 正则 表达 式 是 非常 不 同 的 ， 你 发 现 了 吗 ? 
要 看 这 两 者 的 差别 ， 想 象 第 一 个 表达 式 匹 配 字符 串 “regex” 的 情况 ， 最 后 的 X 之 后 
RA SR, 但 它 不 能 被 x[^/]1 匹 配 。 字符 组 必须 匹配 一 个 字符 , 尽管 这 个 字符 不 能 是 


儿 线 ， 但 它 必须 存在 ， 可 ‘regex’ 中 的 x 之 后 没有 任何 字符 。 第 二 个 表达 式 的 情况 
与 此 类 似 。 当 时 ， 我 们 需要 的 正 是 符合 这 两 个 要 求 的 表达 式 ， 所 以 自然 语言 的 表述 是 
如 果 能 使 用 顺序 环视 ,“X, 之 后 的 字符 不 是 斜 线 ” 可 以 直接 写 做 x(?17)j。 如 果 不 能 ， 
就 可 以 使 用 x([^/]15$)J, 它 仍然 需要 匹配 x 之 后 的 字符 , 但 也 可 以 匹配 字符 串 的 结尾 。 
如 果 能 够 使 用 逆序 环视 ,“ 斜 线 ， 之 前 的 字符 不 是 x” 就 可 以 表示 为 '(?<!x) /1J。 如 果 
不 能 ， 就 需要 使 用 (^| [^x] ) /1。 

在 这 个 例子 中 ， 我 们 没有 使 用 上 述 的 任何 一 种 办 法 ， 但 知道 有 这 些 办 法 并 不 是 坏事 。 





这 看 起 来 很 迷惑 ， 对 吗 ? 真正 的 表达 式 〈 用 类 取代 x) BEA TAX AXIN 湾 \ 火 +/| ， 这 样 
更 复杂 了 了， 更 不 容易 看 情 ， 所 以 在 理解 复杂 的 正则 表达 式 时 ， 一 定 要 保持 清醒 的 思维 。 

消除 C 语 言 注释 的 循环 

为 了 提高 表达 式 的 效率 ， 我 们 必须 消除 这 个 表达 陈 的 循环 。 下 一 页 的 表 6-3 给 出 了 我 们 能 够 “消除 循 
TR” WRIA TK 0 

和 子 域名 的 例子 一 样 ， normal x | 必须 匹配 至 少 一 个 字符 。 子 域名 的 例子 中 是 因为 normal 部 分 不 能 
为 宇 。 本 例 中 必须 的 结束 分 隔 符 包 舍 两 个 字符 。 我 们 确信 ， 任 何以 结束 分 隔 符 的 第 一 个 字符 结尾 的 任何 
normal 序 列 ， 只 有 在 去 跟 字 人 符 不 能 组 成 结束 分 隔 符 的 情况 下 ， 才 会 把 控制 权 交 给 Special 部 分 。 


表 6-3: ep EMTPEinux[] O www.linuxidc.com O [] 


| i à = i 
opening normal* (special normal*)* closing; 
rr. 


To 正则 表达 式 


normal* 注释 文本 ， 包含 一 个 或 多 4 x [^x] *x+ 
special 不 属于 结束 边界 符 的 字符 [*/x] 
closing 结尾 ,的 科 线 / 

所 以 ， 按 照 通 用 的 消除 套路 ， 我 们 得 到 : 


/x[^x]*x+( EER ^k] *x+) */: 
Was 















请 注意 = 标注 的 位 置 。 正 则 引擎 可 能 有 两 种 办 法 到 达 此 处 《〈267 页 的 表达 式 也 是 如 此 ) 。 第 一 个 是 在 开 
KHI /x[Ax]xx+| 匹配 之 后 直接 前 进 到 此 处 ， 第 二 是 在 〈.…) 大 循环 的 某 一 轮 中 。 无 论 哪 种 情况 ， 只 要 到 
达 此 处 ， 我 们 就 知道 已 经 匹配 了 x， 到 达 关 键 位 置 (pivotal point) ， 可 已 经 进入 了 注释 的 结尾 分 隔 符 。 如 
末 下 面 的 字符 是 糙 线 ， 则 匹配 完成 。 如 宁 是 其 他 字符 《当然 不 是 x) ， 我 们 知道 之 前 的 判断 是 错误 的 ， 然 后 
加 到 normal 部 分 ， 等 待 下 一 个 x。 找 到 之 后 我 们 再 一 次 回 到 标记 位 置 。 

回 到 现实 

[/x[Ax] * x+ ((/Vx][Ax] * > 还 不 能 直接 全 来 用 。 首 先 ， 注 释 是 /大 .… 关 /而 不 是 多 .… 允 。 当 然 ， 我 
们 可 以 很 容易 地 把 每 个 x 从 换 为 x 字符 组 中 的 x 奏 换 为 ) : 

[AX [AK AV KIN JAK] A\ K+) 4/) 

实际 情况 中 ， 注 释 通 币 会 包括 多 行 。 如 朱 匹 配 的 注释 包括 多 行 ， 这 个 表达 陈 也 应 该 能 够 应 付 。 如 末 是 
严格 以 行为 处 理 单 位 的 工具 ， 例 如 egrep， 妆 然 没 办 法 用 一 个 正则 表达 式 匹 配 所 有 的 行 。 对 本 书 中 提 到 的 大 
多 数 工 具 ， 我 们 的 确 可 以 用 这 个 表达 式 来 匹配 多 行 ， 删 除 它们 。 

在 实际 中 ， 会 遇 到 许多 问题 。 这 个 正则 表达 式 能 够 识别 C 的 注释 ， 但 不 能 识别 C 语 法 的 其 他 和 童 要 方面 。 
例如 ， 划 线 的 部 分 尽 官 不 是 注释 ， 也 能 够 匹配 : 


const char *cstart = "/*", *cend = "xJ" 
i 


我 们 会 在 下 一 市 接 看 讨论 这 个 例子 。 


[| 日 Linux[| [|] www.linuxidc.com |] [] 


沉 畅 运转 的 表达 去 


The Freeflowing Regex 

RATE SANZ IN TAR ey EVO C AERA IEW AeA sh, BERA Z Fs UE eH FEB PN PR VOC 
使 用 Perl 的 话 ， 你 可 能 会 想到 用 下 和 面 的 程序 过 滤 注 释 : 

$prog=~s{A* [AK] X\+ 《? : [AN/ 淡 ][^ 火 ] 湾 \ 火 +) */ Og; HAMORA ER (但 有 错误 ! ) 

表达 式 中 ， 变 量 $prog 保 存 的 文本 会 被 删除 《〈 也 瓯 是 ， 被 空 文本 蔡 换 反 ) 。 问 题 在 于 ， 如 果 在 字符 串 内 
部 找到 注释 的 起 始 标记 ， 正 则 表达 陈 的 匹配 也 不 会 俘 止 ， 比 如 这 段 C 人 代码: 





char *CommentStart = "/*"; /* start of comment */ 
char *CommentEnd = "*/"; /* end of comment */ 





XE, RAG EH AB od ze TESA SUDO AR, (Ee TE RS ERER. S| BEG TR 
ERSE H mr ESAME Se  A. ALARA AEE RT ea Ba eA 
起 来 有 可 能 开始 的 地 方 ) RT, ATER ACI DL, Pee A SR REAR YB, EAS 
号 字符 串 ， 其 内 容 似乎 是 注释 的 开始 。 最 好 是 能 够 告诉 正则 引擎 ， 遇 见 双 引 号 字符 串 时 是 应 该 答 试 匹配 还 
症 下 接 跳 过 。 当 然 ， 我 们 确实 能 做 到 这 一 点 。 


引导 匹配 的 工 共 








A Helping Hand to Guide the Match 


看 下 面 的 程序 : 

COMNRNT ET ENERE see] LET Rae # “匹配 汪 释 
SDOUBLE = qarí" (P2\\.. | [VV TY**}> # ”匹配 双 引 号 字符 事 
$text =~ s/SDOUBLE|SCOMMENT//g; 


这 里 出 现 了 两 件 新 事物 。 其 中 之 一 是 表达 式 $DOUBLE|$COMMENT) ， 它 由 两 个 变量 组 成 ， 都 使 用 
了 Perl 特 有 的 qr/.../ 正 则 表达 式 “ 双 引号 字符 串 ” 操 作 符 。 我 们 曾 在 第 3 章 仔细 讨论 过 (号 101) ， 如 果 用 字符 
串 表 示 正 则 表达 式 ， 使 用 字符 串 的 时 候 必须 格外 小 心 。Perl 提 供 的 qv.../ 运 算 符 解决 了 这 个 问题 ， 它 会 把 操 
作对 象 Coperand) 视 为 正则 表达 式 ， 但 不 会 实际 应 用 它 。 我 们 在 第 2 草 C76) CAGE, RESET 
便 。 与 my/.../ 和 s/.../.../ 一 样 ， 我 们 可 以 自己 选择 分 隔 符 C71) ， 上 面 使 用 的 是 花 插 号 。 

为 一 点 是 角 过 用 $DOUBLE 来 轧 配 双 引 号 字符 串 。 传 动 装 置 驱动 到 $DOUBLE 能 罗 配 的 位 置 时 ， 会 一 次 
性 匹配 整个 双 引 号 字符 串 。 这 里 使 用 多 选 分 文 完全 没有 问题 ， 因 为 二 者 之 间 并 没有 重 登 。 如 果 我 们 从 左 回 
右 扫 摘 这 个 正则 表达 式 就 会 发 现 ， 应 用 到 字符 串 时 ， 存 在 三 种 可 能 : 

e 注 释 部 分 能 够 由 配 ， 于 是 一 次 性 匹配 注释 部 分 ， 直 接 到 达 注 释 的 末尾 ， 或 者 .…. 

e 双 引号 字符 串 部 分 能 够 匹配 ， 于 是 一 次 性 匹配 双 引 号 字符 串 ， 直 接 到 达 其 结尾 ， 或 者 .. 

e 上面 两 者 都 不 能 匹配 ， 本 轮 党 试 失 败 。 局 动 驱 动 过 程 ， 跳 过 一 个 字符 。 

这 样 ， 正 则 表达 式 永远 不 会 从 双 引 号 字符 串 或 者 注释 内 部 开始 尝试 ， 这 就 是 成 功 的 关键 。 实 际 上 ， 到 
目前 为 止 还 不 够 ， 因 为 这 个 表达 式 在 删除 注释 的 同时 也 会 删除 双 引 号 字符 串 ， 不 过 我 们 只 需要 再 修改 一 小 
mat Ss. 

SCOMMENT = get \* [O38] "7 \*4 (73 AI [°F 14 4) 77} # DU BCs Ht 

SDOUBLE = qr{"(?:\\. | [*4\\"]) *"}e # 匹配 双 引 号 字符 囊 

Stext =~ s/ (SDOUBLE) | SCOMMENT/$1/g; 


唯一 的 区 别 在 于 : 
e 设 置 了 捕获 型 括号 ， 如 果 能 够 匹配 双 引 号 字符 串 对 应 的 多 选 分 支 ， 则 $1 会 保存 对 应 的 内 容 。 如 果 匹 
配 通过 注释 多 选 分 支 ，$1 为 空 。 
ej 把 replacement 的 值 设 置 为 $1。 结 果 就 是， 如 果 双 引号 字符 串 罗 配 了 ，replacement 束 等 于 双 引 号 字符 串 
”并 没有 发 生 删除 操作 ， 蔡 换 不 会 进行 任何 修改 《不 过 存在 伴随 效应 ， 即 一 次 性 匹配 这 个 双 引 号 字符 
串 ， 直 接 到 达 其 结尾 ， ee de i 


























匹配 ，$1 为 空 ， 所 以 会 按照 期 望 删除 注释 〈 注 8) 。 

最 后 我 们 还 必须 小 心 对 付 单 引 号 的 C 常 量 ， 例 如 \t。 这 很 容易 一 一 只 需要 在 括号 内 添加 另外 一 个 多 选 
分 支 。 如 果 我 们 希望 去 掉 C++, Java, CHARNE, Wa AHE An] | 作为 第 四 个 多 选 分 支 ， 列 在 括 
号 外 。 





SCOMMENT = SE WT] 本 Eee 


SCOMMENT2 = gqr{//[*\n]*}; # 匹配 C++ // 注释 
SDOUBLE = qr{"(?:\\.1(°\\"]) *"}e # 匹配 双 引 号 字符 串 
SSINGLE = qari" (F7 ITA] "Fe # 匹配 单 引 号 字符 事 


$text =~ S/(SDOUBLE15SSINGLE) |SCOMMENT | $COMMENT2/$1/g; 
we NE 


基本 原理 很 好 懂 : SRELA, SR CRAE, MER) 这 些 特殊 结果 。 在 我 的 老 机 器 
(配置 大 概 停留 在 1997 年 的 水 平 ) 上 ，Perl 脚 本 在 16.4 秒 的 时 间 内 去 掉 了 16MB，500 000 行 的 测试 文件 中 的 
注释 。 这 已 经 很 快 了 ， 不 过 我 们 仍然 需要 提高 速度 。 


引导 民 好 的 正则 表达 却 速 度 很 快 


A Well-Guided Regex is a Fast Regex 

Ble —ae)L, Bahay EARRA TE S| AIS ee, WEA ee re VERE. RG RE PRA FB 
间 的 普通 CRRI. TERE, IEW S| eh Ae Se Ena, Ae ce eV, RAS Bie 
分 文 都 匹配 失败 ， 它 才 会 前 进 到 下 一 个 位 置 ， 这 些 复杂 工作 其 实 是 不 必要 的 。 

我 们 知道 ， 如 果 其 中 任何 一 个 多 选 分 文 有 机 会 匹配 ， 开 头 的 字符 都 必须 是 矢 线 、 单 引号 或 是 双 引 号 。 
这 些 字 符 并 不 能 傈 证 能 够 匹配 ， 但 是 不 满足 这 些 条 件 绝对 不 能 匹配 。 所 以 ， 与 其 让 引擎 缓慢 而 痛 吉 地 认识 
到 这 一 点 ， 不 如 把 [和 '" /]| 作为 多 选 分 支 ， 直 接 告诉 引擎 。 实 际 上 ， 同 一 行 中 任何 数量 的 此 类 字符 都 能 归 
为 一 个 单元 ， 所 以 我 们 使 用 N" 1+) 。 如 果 你 记得 无 休止 匹配 ， 可 能 会 为 添加 的 加 号 担心 。 确 实 ， 如 果 
EEA C.D 大 循环 中 ， 它 可 能 是 很 大 的 问题 ， 但 是 在 这 个 例子 中 ， 它 完全 没有 问题 〈 之 后 没有 元 系 强 迫 
EERI) ， 所 以 ， 添 加 : 

SOTHER = qr{[^"'/]}; # 可 能 作为 某 个 多 选 结 构 开 头 的 字符 


$text =~ s/($DOUBLE|$SINGLE|S$OTHER+) | SCOMMENT | SCOMMENT2/$1/g; 
— 

















出 于 茶 些 我 们 即将 要 看 到 的 原因 ， 我 把 加 气量 词 放 在 $OTHER 之 后 ， 而 不 是 $OTHER 的 内 容 之 中 。 
我 重新 进行 了 性 能 调试 ， 出 乎 意料 的 是 ， 这 样 可 以 减少 75% 的 时 间 。 通 过 改进 ， 这 个 表达 式 节 和 省 了 频 


繁 尝试 所 有 多 选 分 支 的 大 部 分 时 间 。 仍 然 有 些 情况 ， 所 有 多 选 分 支 都 不 能 匹配 〔 例 如 Ca’ F724 ,) ,此 
时 ， 我 们 只 能 接受 驱动 过 程 。 

不 过 ， 事 情 还 没有 结束 ， 我 们 仍然 可 以 让 表达 式 更 快 : 

。 在 大 多 数 情况 下 ， 最 常用 的 多 选 分 支 可 能 是 [$OTHER+ | ， 所 以 我 们 把 它 排 在 第 一 位 。POSIX NFA 
没有 这 个 问题 ， 因 为 它 总 会 检查 所 有 的 多 选 分 支 ， 但 是 对 于 传统 型 NFA， 它 只 要 找到 匹配 就 会 停止 ， 为 什 
入 不 把 最 可 能 出 现 的 多 选 分 支 放 在 第 一 位 呢 ? 

。 一 个 引用 字符 串 匹 配 之 后 ， 在 其 他 字符 串 和 注释 匹配 之 前 ， 很 可 能 出 现 的 就 是 8OTHER 的 匹配 。 若 在 
每 个 元 素 之 后 都 添加 $OTHER x* | ， 就 能 够 告诉 引 警 下面 必 须 匹 配 $OTHER， 而 不 用 马上 进入 下 一 轮 /g 循 
有 

这 与 消除 循环 的 技巧 是 很 相似 的 ， 此 技巧 之 所 以 能 提高 速度 ， 是 因为 它 主导 了 正则 引擎 的 匹配 。 这 里 
我 们 使 用 了 关于 全 局 匹配 的 知识 来 进行 局 部 优化 ， 给 引擎 提供 快速 运转 必须 的 条 件 ， 

非常 重要 是 ，'$OTHER* | 是 加 在 每 个 匹配 引用 字符 串 的 子 表 达 式 之 后 的 ， 而 之 前 的 $OTHER (HEE 
多 选 结构 最 前 面 的) 必须 用 加 号 量词 。 如 果 你 不 清楚 原因 ， 请 考虑 下 面 的 情况 ， 添加 的 是 $OTHER+， 而 蘑 
行 中 有 两 个 连 在 一 起 的 双 引 号 字符 种。 同样 ， 如 果 阿 落 的 SDFHER 使 用 是 骨 量 记 w 出 侨 包 屿 中 者 例 ] 站 














取 终 得 到 : 
' (SOTHER+ | SDOUBLESOTHER* | $SSINGLESOTHER*) | SCOMMENT | SCOMMENT2 

这 个 表达 式 能 把 时 间 再 减少 5%。 

回 过 头 来 想 想 最 后 两 个 改动 。 如 果 每 个 添加 的 $SOTHER * 匹配 了 过 多 的 内 容 ， 开 头 的 SOTHER+ (我 们 
将 其 作为 第 一 个 多 选 分 支 ) 只 有 两 种 情况 下 能 够 匹配 : 1) 它 匹配 的 文本 在 整个 %/.../.../g 的 开头 ， 此 时 还 轮 
不 到 引用 字符 串 的 匹配 : 2) 在 任意 一 段 注 释 之 后 。 

你 可 能 会 想 * 从 第 二 点 考虑 ， 我 们 不 妨 在 注释 后 添加 $OTHER+”。 这 很 不 错 ， 只 是 我 们 硕 望 用 第 一 对 括 
写 内 的 表达 式 匹 配 所 有 和 希望 体 留 的 文本 一 一 不 要 把 孩 子 连 洗澡 水 一 起 倒 摊 。 

那么 ， 如 和 果 $OTHER+ 出 现在 注释 之 后 ， 我 们 是 售 需 要 把 它 放 在 开头 呢 ? 我 党 得 ， 这 取决 于 所 应 用 的 数 
据 一 一 如 果 注 释 比 引用 字符 串 更 多 ， 管 案 束 是 肯定 的 ， 把 它 放 在 第 一 位 有 意义 。 人 奋 则 ， 我 束 会 把 它 放 后 
面 。 从 测试 数据 来 看 ， 把 它 放 在 前 面 的 效果 更 好 。 排 在 后 面 大 约会 损失 最 后 的 修改 一 半 的 效率 。 


完工 














Wrapup 

事情 还 没有 结束 。 不 要 筷 记 ， 每 个 匹配 引号 字符 串 的 子 表 达 陈 都 应 该 消除 循环 ， 本 章 已 经 化 了 很 长 的 
骗 幅 讲解 这 个 问题 。 所 以 ， 最 后 我 们 要 把 这 两 个 子 表达 式 葵 换 为 : 

$ DOUBLE ee Ow | Pere khe TO Be 
SSINGLE set! (OMAN) PAPE Yie PPE MAT RD RTS 

MERCIA SISA TA). LEAD AEL A ET TIA 16.49) 4a $5 S239), Fett L7H 

最 后 的 修改 还 说 明 ， 用 变量 来 构建 正则 表达 式 多 么 方便 。$DOUBLE 可 以 作为 单独 的 元 素 独 立 出 来 ， 
可 以 改变 ， 而 不 需要 修改 整个 正则 表达 式 。 虽 然 还 会 存在 一 些 整 体 性 问题 (包括 捕获 文本 括号 的 计数 ) ， 
但 这 个 技巧 确实 很 方便 。 

这 种 便利 是 由 Perl 的 gx/.../ 操 作 符 提供 的 ， 它 表示 与 正则 表达 式 相 关 的 “字符 串 *?。 其 他 语言 没有 提供 
相同 的 功能 ， 但 是 大 多 数 语言 提供 了 便于 构建 正则 表达 式 的 字符 串 。 请 参见 101 页 的 “作为 正则 表达 式 的 字 
PTH” 

面 是 原始 的 正则 表达 式 ， 看 到 它 ， 你 肯定 会 党 得 上 面 的 办 法 非 党 方便。 为 了 便于 印刷 ， 我 把 它 分 为 
PRAT: 
(A " J+)" [A "> OMA" x) "A" N] 
(EAAS KITA" YAK [AK] KV +A A] H * A/T \n] * 
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总 结 : 开动 你 的 大 脑 


In Summary: Think! 
在 本 章 的 结尾 讲 个 故事 ， 我 希望 读者 能 够 明白 ， 在 NFA 中 使 用 正则 表达 式 时 ， 稍 微 动 动脑 筋 能 带 来 多 
大 的 收益 。 在 使 用 GNU Emacs 时 ， 我 硕 望 用 一 个 正则 表达 陈 来 找 出 东 种 闫 型 的 缩写 ， 例 


如 “domt*”、“TPm” 和 和 “we” 之 类 ， 同 时 必须 忽略 与 单词 邻接 的 单 引 写 。 我 想 用 Aw 来 匹配 单词 ， 然 后 
是 |" ([tdm]lrellllve) | 。 这 办 法 没有 问题 ， 但 是 我 意识 到 ， 使 用 \<\w4 | ERE. ALA HR H Ew. 
UNA BS, WRA S ZHI ZE “Ww, wE At ee VO, ADA SIEM eA BSH A at AS 
思 ， 除 非 我 希望 得 到 匹配 的 文本 《〈 在 这 里 并 不 需要 ， 我 们 只 需要 找到 这 个 位 置 ) 。 单 独 使 用 \w 的 正则 表达 
式 的 速度 是 原来 的 10 倍 。 

正 因 如 此 ， 一 点 点 的 思考 了 驶 可 以 市 来 巨大 的 收获 。 我 布 望 本 章 能 够 引 友 你 的 这 点 思考 。 





[| 日 日 Linux[| || www.linuxide.com [] [] 


37 Perl 


Perl 

Perl 在 本 书 中 的 分 量 很 重 ， 这 样 安 排 有 充分 的 理由 。Perl 很 流行 ， 提 供 的 正则 表达 式 特 性 很 丰富 ， 容 易 
下 载 到 ， 也 很 容易 入 门 ， 而 且 在 Windows、Unix 和 Mac 等 各 种 平台 上 都 有 提供 。 

Perl 的 茶 些 程序 结构 看 上 去 类 似 C 和 其 他 传统 编程 语言 ， 但 也 只 是 看 上 去 像 而 已 。Perl 解 决 问题 的 方式 

Perl 之 道 (The Perl Way) 一 是 不 同 于 传统 语言 的 。Perl 程 序 的 设计 通 彰 使 用 传统 的 结构 化 和 面 癌 对 
象 的 概念 ， 但 是 数据 处 理 通 间 严重 依赖 正则 表达 陈 。 我 认为 完全 可 以 这 么 说 : 正则 表达 式 在 所 有 的 Perl 程 

序 中 部 不 可 或 忠 。 无 论 这 个 程序 是 100 000 行 ， 还 是 一 行 : 

%perl-pi-e's{ ([-+]? \d+ (Nd 大) ? ) F\b}{sprintf "%.0fC", ($1-32) 火 5/9}eg' 炎 .txt 这 个 程序 检查 
所 有 的 .txt 文 件 ， 将 其 中 的 华氏 瘟 上 度 转 换 为 握 氏 温度 (还 记得 第 2 草 开 头 的 例子 吗 ) 。 

AS Ft AY 

AS UEP EURA TT 7s E11), FRIES, AEA TE Wu eer SUA i EFF 
本 和 章 从 基础 开始 介绍 相关 的 细节 ， 但 我 还 是 假设 谈 者 对 Perl 有 基本 的 理解 (如 果 你 看 过 第 2 革 ， 看 本 章 就 
没 多 大 问题 》。 那 些 没 有 详细 讲解 的 细 方 ， 我 会 一 笔 市 过 ， 也 不 会 费 工 夫 来 讲解 语言 中 与 正则 表达 式 不 相 
天 的 细节 。 在 手边 准备 一 本 Perl 的 文档 会 很 有 帮助 ， 或 者 O’Reilly 的 Programming Perl 也 行 。 

即使 你 目前 对 Perl 还 不 够 了 解 也 不 要 么 ， 重 要 的 是 要 有 进一步 学 习 的 欲望 。 从 任何 方面 来 说 ， 了 阅读 本 
章 都 不 是 件 轻松 的 事情 。 我 的 目的 不 是 市 读者 入 门 ， 而 是 教 给 该 者 其 他 Perl 的 书 中 没 提供 的 有 用 知识 : 为 
了 保持 本 章 内 容 的 整体 性 和 连贯 性 ， 我 不 会 忽略 一 些 重要 的 细节 。 某 些 问 题 很 复 洒 ， 细 节 很 多 ， 如 果 不 能 
蕊 上 理解 也 不 必 担 心 。 我 推荐 读者 第 一 授 阅 读 时 只 要 了 解 全 面 的 图 景 ， 需 要 的 时 候 再 运 过 来 查阅 。 

下 面 列 出 了 本 章 的 结构 作为 指导 : 

- = 的 正则 流派 "(号 286) Se f Perl 的 正则 表达 陈 提供 的 丰 蜗 的 元 字符 ， 以 及 正则 文字 提供 的 附 
特性 。 

e“ 上 正则 相关 的 Perl 教义 (Perlism) ” (293) 考察 了 在 Perl 中 使 用 正则 表达 式 的 一 些 重 要 问题 。 评 细 
介绍 了 “动态 作用 域 (dynamic scoping) ”和 “表达 式 应 用 场合 (expression context) ”， 并 解释 了 它们 与 正则 
PIA TAZ SA] AY EK RK 
i: @ EM ZA Sw aS IMA 7 ZG AERA A MEL, MA TA EE S Perl Ap ap AY TE WU Per EPS Hill 25 

qr/.../ 运 算 符 和 Regex 对 象 (= 303) 


Kets 方太 


Matchia ff C306) 


一 hole Poly 


Substitutionia BAY (1318) 

Splita GF C2321) 

0 S59 APerlt eA ere” 02326) 介绍 了 Perl 独 具 的 正则 改良 功能 ， 包 括 在 正则 表达 式 的 应 用 过 程 中 执 
行 任意 Perl 代 码 的 功能 。 

e“Perl 的 效率 问题 ”( 号 347) 详细 讲解 了 每 个 Perl 程序 员 关 注 的 问题 。Perl 使 用 传统 型 NFA 引 擎 ， 所 
以 我 们 可 以 充分 利用 第 6 章 介 绍 的 各 种 技巧 。 当 然 ， 还 有 一 些 专属 于 Perl 的 问题 会 强烈 地 影响 到 Perl 应 用 正 
则 表达 式 的 方式 和 速度 。 这 些 都 会 有 所 涉及 。 

前 几 章 出 现 的 Perl 

本 书 的 大 部 分 内 容 中 都 出 现 过 Perl: 

e 第 2 章 包括 Perl 的 入 门 知 识 ， 给 了 许多 例子 。 

e 第 3 章 介绍 了 Per 的 历史 C88) ， 用 Perl 语 言 介绍 了 许多 应 用 正则 表达 式 的 问题 ， 例 如 字符 编码 
(包括 Unicoder 有 105) 、 匹 配 模式 C=110) ， 以 及 元 字符 (二 113) 。 

e 第 4 章 解密 了 Perl 使 用 的 传统 型 NFA 引 擎 。 对 Per 用 户 来 说 这 一 章 非 常 重要 。 

e 第 5 章 承接 第 4 章 ， 包 含 许 多 讨论 过 的 例子 。 其 中 许多 是 以 Penl 给 出 的 ， 即 使 有 些 例子 不 是 以 Perl 给 出 
的 ， 它 们 的 原理 也 适用 于 Perl。 

e 第 6 章 对 效率 感 兴 趣 的 Perl 程 序 员 应 该 仔细 阅读 。 

为 了 照顾 不 熟悉 Per 的 读者 ， 前 几 章 我 都 简化 了 Perl 的 例子 ， 使 用 容易 看 懂 的 伪 码 。 本 章 我 会 使 用 Perl 
风格 的 代码 来 举例 。 [| O U U Linux|] |] www.linuxidce.com [] [| 


























作为 语言 组 件 的 正则 表达 式 


Regular Expressions as a Language Component 
Perl 语 言 引 人 注目 的 特性 之 一 就 是 ， 正 则 表达 式 在 语言 之 中 文 持 完 类 地 内 建 。Perl 没 有 提供 独立 的 正则 
表达 式 应 用 函数 ， 它 的 正则 表达 式 的 运算 从 ， 包 含 在 构成 语言 的 其 他 丰富 的 运算 从 和 结构 之 中 。 
Perl 具 有 强大 的 运用 正则 表达 却 的 能 力 ， 人 们 可 能 认为 ， 这 需要 数量 楷 多 的 运算 待 ， 但 是 ，Penl 事 实 上 
只 所 供 了 四 个 与 正则 表达 式 有 关 的 运算 从 ， 以 及 少量 的 相关 元 系 〈 见 表 7-1) 。 
表 7-1: Perl 中 与 正则 表达 式 相 关 的 对 象 概览 
正则 表达 式 相关 运算 符 修饰 符 含义 
m/regex/mods (306) 
s /regex/replacement/mods (7318) 
qr/regex/mods (7303) 
split(::) (#321) 














正则 表达 式 的 解释 方式 (7292, 348) 
引擎 认定 的 目标 字符 事 (292) 
其 他 (311. 315. 319) 











编译 指示 (Pragma) 匹配 完成 之 后 的 变量 (7299) 
| HAJI 
use charnames ‘:full’; (7290) RETEA 
5 Yn F/R A AIS, $20 
use overload; (7341) 表示 目标 字符 事 中 
use re teval’; (S337) 2 PT - - 
Al, AIL “Perl 的 效率 问题 356) 


相关 函数 相关 变量 
le lcfirst uc ucfirst (#290) 
pos (#313) quotemeta (7290) 
reset (7308) study (#359) 


Per 的 功能 非常 强大 ， 但 它 提供 的 运算 符 数 量 非常 少 ， 这 样 有 利 也 有 浆 。 
Perl 的 长 处 


7 默认 的 目标 字符 事 (F308) 
$^R Ay te Xa hid ATE (7302) 


Perl's Greatest Strength 

Perl 最 大 的 优势 可 能 在 于 ，Perl 的 运算 符 和 函数 提供 了 丰 曙 的 选项 。 根 据 应 用 场合 的 不 同 ， 它 们 的 行为 
也 人 不同， 当然 ， 这 通 弟 是 执行 者 在 那 种 场合 目 然 想 到 的 操作 。O?'Reily ”的 Programming Pen 说 得 很 绝 
对 : “总 的 来 说 ，Perl 的 运算 人 符 可 以 做 你 希望 的 任何 事情 .……”。 正 则 匹配 运算 符 mregex/ 提 供 了 许多 神奇 的 
功能 ， 会 根据 应 用 的 场合 、 方 式 以 及 修饰 符 的 不 同 而 变化 。 


Perl 的 短处 


Perl's Greatest Weakness 

表达 能 力 太 强 ， 也 是 Perl 最 大 的 毛病 之 一 。 哪 人 只 是 进行 极 小 的 修改 ， 也 有 数 不 清 的 特殊 情况 、 条 件 
和 场合 在 你 眼皮 底下 发 生变 化 ， 但 却 不 会 通知 你 一 一 不 经 意 之 间 就 切换 到 另 一 种 应 用 场合 ( 注 2) 。 在 
Programming Perl 这 本 书 中 ， 上 面 那 句 话 的 下 半 句 是 “只 是 缺乏 一 致 性 〈consistency) ”。 当 然 ， 对 计算 机 科 
学 来 说 ， 国 定 、 一 致 而 值得 依赖 的 接口 是 可 取 的 。Perl ”的 强大 功能 在 有 经 验 的 用 户 手 里 可 能 是 强大 的 武 
a> (ETUDE, PRAY Perl 技能 不 断 增 长 ， 是 以 不 断 地 射 伤 目 己 的 腿脚 为 代价 的 。 








中 上 局 Dinux [|] www.linuxidce.com |] [] 


Perl 的 正则 流派 


Perl's Regex Flavor 

下 一 页 的 表 7-2 概 要 描述 Perl 的 正则 风格 。 以 前 ，Perl 的 许多 元 字符 是 其 他 系统 不 支持 的 ， 但 是 经 过 许 
多 年 之 后 ， 其 他 系统 接受 了 许多 Perl 的 创新 。 这 些 常见 的 特性 在 第 3 章 的 概 哆 里 有 插 述 ， 但 古 Perl 还 有 专属 
于 自己 的 元 素 ， 会 在 本 章 后 面 讲解 〈 表 7-2 Za CORDA APL 

下 面 是 对 表格 的 补 元 : 

ol\b 只 有 在 字符 组 内 部 才 是 退 格 符 的 简 记 法 。 在 字符 组 外 部 ，\b 表 示 单 词 分 界 符 C133) 。 

八进制 转 义 接收 2 到 3 位 的 数值 。 

[xnumi 十 六 进 制 转 义 接收 两 位 数字 (也 可 以 是 一 位 数字 ， 但 是 会 报警 ) 。  \xfnum} | 能 接收 任意 长 
度 的 十 六 进 制 数 。 











表 7-2: Pen 的 正则 流派 概览 


[| 日 日 Linux[| || www.linuxide.com [] [] 


字符 组 缩 略 表示 法 


115 (c) | \a [\b] \e \E \n \r \t \octal \xhex \xthex} \echar 
字符 组 及 相关 结构 

#118 字符 组 : […] [^…] amr 的 [:alpha:] AFR, © 127) 
#119 除 换行 符 ee (使 用 /s 时 能 匹配 所 有 字符 ) 

= 120 Unicode 组 合 字 符 序 列 : 

#120 BNE (ATER): a 

7120 (c) | 字符 组 缩 略 表示 法 ": \w Nd \s \W \D \s 

#121 (c) Unicode 属性 ， 字 母 表 和 区 块 : \p{ Prop} \P{Prop} 

锚 点 及 其 他 零 长 度 断 言 

e129 行 /字符 囊 起 始 位 置 : ^ NA 

e129 行 /字符 事 结 来 位 置 : $ \z \2 

#315 前 一 次 匹配 的 结束 位 置 : \G 

e133 单词 分 界 符 “，Nb NB 

F133 SRA: (Parr) (21e) (?<=…) (?<1…) 

注释 和 模式 修饰 符 

S135 模式 修饰 符 ”: (2?2:mods-mods) ， 容 许 出 现 的 字母 是 于 SS m i (7292) 
e135 模式 修饰 作用 范围 : ( 2mods-mods: :…) 

F136 注释 : (?#…) #… (车 使 用 /x， 则 注释 从 “# ”开始 ， 到 行 末 结 束 ) 


分 组 、 捕 获 、 条 件 判断 和 控制 





#137 AR fe AEH. e) \L N2.. 

137 仅 用 于 分 组 的 括号 : (?:…) 

139 加 化 分 组 : (?>…) 

139 多 选 结 枸 : | 

140 条 件 判 断 : (2if then | else) 让 部 分 可 以 为 内 谋 代 码 、 环 视 ， 或 是 (num) 
14] 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

14] AOA AS]; *? +? ?? {n}? {n,}? {x,y}? 
327 ARRE: (214) 

#327 动态 表达 式 : (?3?{…]) 

专属 于 正则 文字 的 功能 

#289 (c) 变量 插值 : $name @name 

290 (c ) 大 小 写 转 换 : \1l Nu 

#290 ( Ap] Hak TA: NU \L ..\E 

e290 文字 文本 范围 : NONE 


290 (c) 


) 表示 可 以 在 字符 组 内 部 使 用 O---O, 


命名 的 Unicode F4: \N{name} TEM, ALF 290 页 


www.linuxidc.com 





o2w、\d、\s 之 类 完全 文 持 Unicode。 

Perl 的 \s 不 能 匹配 ASCII 的 垂直 制 表 符 C115) 。 

o3 PerlH‘/Unicode xz #41 *} HY x Unicode Version 4.1.0. 

Unicode 字 母 表 也 能 文 持 。 字 母 表 和 属性 名 可 以 有 45 前缀， 但 并 非 必 须 CS 125) 。 区 块 名 可 以 
有 ‘Im? 前 经， 但 只 有 在 区 块 和 字母 表 的 名 字 发 生 冲 突 时 才 必 须 使 用 。 

Perl 也 支持 \p{L&} 3 \p{Any} : \p{ All}. '\p{ Assigned} | 和 '\p{Unassigned} | JEE. Perl xý 
例如 '\p{Letter}, 的 长 属性 名 。 名 字 的 各 个 单词 之 间 可 能 是 空格 、 下 画 线 ， 或 者 什么 也 没有 ， ain 
'\p{Lowercase_Letter} | ， 也 可 能 写作 \p{Lowercase Letter}; ) 或 者 是 '\p{Lowercase-Letter} | >, AY 
后 一 致 ， 我 推荐 使 用 第 123 页 表格 中 的 长 命名 。 

\pt...$) 等 价 于 \P{...}| o 

04 Hl ye] ap HRS TE XM FF Unicode. 

05 顺序 环视 可 能 包含 捕获 型 括号 。 

逆序 环视 中 的 子 表 达 式 必须 匹配 固定 长 度 的 文本 。 

o6MX 修 饰 符 只 能 识别 ASCII 空 白字 符 。/mm 只 对 换行 符 有 影响 ， 而 且 不 是 所 有 的 Unicode 

换行 符 。 

/i 能 够 在 Unicode 中 正常 工作 。 

a o a a “正则 元 字符 ?没有 得 到 正则 引擎 的 文 择 ， 但 Perl 的 正则 文字 预 处 理 机 
AE XT AT 











正则 运算 符 和 正则 文字 


Regex Operands and Regex Literals 

表 7-2 最 下 面 的 条 目标 注 有 “专属 于 正则 文字 ”。 正 则 文字 (regex literal) 就 是 mregex/ 部 分 中 
的 “regex”， 虽 然 平 时 称 其 为 “正则 表达 式 ”， 但 在 /分隔 从 之 间 的 部 分 是 有 目 己 的 解析 规则 。 用 Perl 的 行 话 
来 说 ， 正 则 文学 束 是 “表示 正则 含义 的 双 引 号 字符 串 (regex-aware double-quoted string) ”， 及 处 理 之 后 传递 
给 正则 引擎 的 结 有 末 。 正 则 文字 处 理 机 制 提 供 了 特殊 的 功能 来 构建 正则 表达 式 。 

举例 来 说 ， 正 则 文字 提供 了 变量 插值 功能 。 如 采 变 量 $gnum 的 值 是 20， 人 代码 m/: {$num}: /得 到 的 就 是 
i; {20}: | 。 这 样 可 以 根据 需要 即时 构建 正则 表达 式 。 正 则 文字 的 另 一 功能 是 大 小 写 自动 切换 展开 ， 
\U..\E 可 以 保证 其 中 的 字母 均 为 大 写 。 比 如 ，m/abc\Uxyz\E/ 得 到 正则 表达 式 1abcXYZ， 。 这 个 例子 有 点 做 
作 ， 如 果 需 要 使 用 abcXYZ| ， 应 该 直接 输入 m/abcXYZ/， 但 是 这 种 功能 结合 变量 插值 就 很 有 用 : 如 果 变 

[ 

量 $tag 包含 字符 串 <ttle"， 则 代码 mt TaD) 得 到 “TIDE 

除 正 则 文字 之 外 还 有 什么 呢 ? 我 们 可 以 把 字符 串 〈 或 者 任何 表达 式 ) 当 作 正则 运 复 元 ， 比 如; 

SMatchField = "*Subject:"; # 普通 字符 串 赋值 


if ($text =~ SMatchField) { 








当 $MatchField 用 作 = 一 的 运算 元 时 ， 它 的 值 吏 被 解释 ~Cinterpreted) 为 正则 表达 式 。 这 里 只 能 “解释 ” 普 
通 的 正则 表达 式 ， 所 以 不 支持 只 作用 于 正则 文字 的 变量 插值 和 \Q..\E| 。 

下 和 面 的 例子 值得 思考 ， 如 果 把 : 

$text=~$ MatchField 

BMN: 

$text=~m/$MatchField/ 

EREE IE. REWERS Pe —— = $MatchField. JEWS PARERES 
被 当 作 正则 文字 处 理 ， 所 以 变量 内 的 \U...\E 和 $var 之 类 不 会 被 识别 (第 292 页 说 明了 正则 文字 的 处 理 细 
Ta 
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就 很 明显 。 第 348 页 讨论 了 这 个 问题 。 

正则 文字 文 持 的 特性 

正则 文字 提供 下 面 的 特性 : 

eile 正则 表达 陈 中 以 $ 和 @ 开 头 的 变量 会 家 人 答 换 为 实际 变量 的 值 。$ 变 量 插入 一 个 简单 的 纯 量 值 
(scalar value) 。 以 @ 开 头 的 插入 数组 或 者 数组 的 一 部 分 ， 以 空格 分 隅 各 个 元 素 〈 其 实 是 以 $ " 变量 作 分 隅 
符 ， 它 的 默认 值 是 空格 ) 。 

在 Perl 中 ，“‘%’” 引 入 一 个 散 列 变量 (hash variable〉， 但 是 在 字符 串 中 插入 一 个 散 列 变量 并 没有 太 大 的 意 
义 ， 所 以 Perl 不 支持 % 插 值 。 

e 命 名 的 Unicode 字 人 符 如 果 程 序 中 包含 use charnames': full’; ”, Wta LL AA\N{name}? 315] H Unicode 
符 。 例 如 ，MN{LATIN SMALL LETTER SHARP S}/CB¢“&”. 7EPerlfJunicore 目录 下 的 UnicodeData.txt 中 可 
以 找到 Perl 支 持 的 Unicode 字 符 列 表 。 下 面 的 代码 能 够 报告 文件 的 位 置 : 

use Config; 
print “SConfig{privlib} /unicore/UnicodeData.txt \n"; 

“use charnames': full’; ”很 容易 忘记 ， 或 者 忘记 在 ‘full 前 面 添加 冒号 ， 果 真如 此 的 话 ，\N{...} 就 不 能 
第 工作 。 同 样 ， 如 果 使 用 了 下 面 介绍 的 正则 表达 式 重 载 ，\N{...} 也 不 能 正常 工作 。 

e 大 小 与 转换 前 绥 \ 和 Nu 能 够 把 后 面 的 字符 转换 为 小 写 或 大 写 形式 。 通 第 我 们 使 用 此 功能 来 转换 插值 变 
量 的 第 一 个 字符 。 举 例 来 说 ， 如 果 变 量 $title 包含 “mr.”，m/...u$title.../ 束 能 生成 正则 表达 式 MT 
Perl 的 Icfirst © 和 ucfirst () 水 数 提 供 了 同样 的 功能 。 

e 大 小 与 转换 范围 和 \U 能 够 把 后 面 所 有 的 字符 转换 为 小 写 或 大 写 ， 其 作用 苑 围 一 直到 表达 式 末 尾 ， 
或 是 上 为 止 。 同 样 是 $title，my...\Us$title\E.../ 会 产生 正则 表达 式 「.….MR.…| 。Perl 的 lc()〉 Muc O 函数 提 
供 了 同样 的 功能 。 

我 们 可 以 把 这 两 者 结合 起 来 : 无 论 变量 $title 采用 怎样 的 字母 组 合 ，my..\L\u$title\E.../ 都 会 得 到 |...Mr. 





| o 
el MAU NQe MX Cquote) "IEW FATE EMEEN HIM PT RG REEK 
作为 普通 的 字符 ) ， 其 作用 范围 直到 字符 串 的 结尾 ， 或 者 直到 眉 。 它 能 转 义 正则 表达 式 元 字符 ， 但 不 能 转 
义 表 示 灾 量 插值 的 正则 文字 \U， 当 然 也 不 能 转 勾 \E。 奇 怪 的 是 ， 如 果 反 和 斜 线 开 头 的 字符 序列 不 能 识别 
例如 \F 或 者 \H， 反 冬 线 也 不 会 被 转 义 。 即 使 是 \Q..\E， 这 样 的 序列 也 会 导致 unrecognized escape” 警 告 

在 实践 中 ， 这 些 限 制 并 不 是 严重 的 缺陷 ，\Q..E 通常 用 于 引用 插值 文本 ， 这 样 束 可 以 正确 转 义 所 有 的 
元 字符 。 例 如 ， 如 果 S$title 包 含 “Mr.”， 那 么 代码 m/..\Qs$title\E.../ 就 会 生成 正则 表达 式 | Mi.) ， 我 们 要 
的 束 古 这 样 一 一 布 望 轧 配 的 是 $title 中 的 字符 ， 而 不 是 $title 中 的 正则 表达 式 。 

如 果 你 希望 在 正则 表达 式 中 包含 菜 些 用 户 输 入 的 数据 ， 这 非 剃 有用。 举例 来 说 ，mAQ$UserInput\E/i 能 
够 对 $UserInput“ 作 为 字符 串 ， 而 不 是 正则 表达 式 〉 中 的 字符 进行 不 区 分 大 小 写 的 搜索 。 

Perl 的 函数 quotemeta O 提供 了 与 \Q...E 等 价 的 功能 。 

e 重 载 ” 信 助 重 载 ， 用 户 可 以 使 用 任何 期 望 的 方式 预 处 理 正 则 文字 的 文字 字符 。 这 是 概念 值得 讨论 ， 但 
征 目前 的 实现 还 有 诸多 限制 。 关 于 重 载 的 细 币 讨论 请 参见 第 341 页 。 

使 用 目 己 的 正则 表达 式 分 隅 从 

Perl 语 法 中 最 奇 妙 〈 也 是 最 有 用 〉 的 特性 之 一 就 是 用 户 可 以 使 用 目 己 的 正则 文字 分 隅 从 。 传 统 的 分 隔 
AERA, PAO m/.../、s/.../.../ 和 gr/.../， 不 过 还 可 以 使 用 队 数 字 、 字 母 和 空格 之 外 的 字符 。 和 常用 的 包括 : 























m! «+! m{=} 
m, =, Mlee S 
speej ee] m[.…] 
qrg m (*…) 


右边 四 个 是 特殊 的 分 隔 符 : 
e 石 边 的 四 个 例子 共有 不 同 的 开始 -结束 分 隔 符 ， 而 且 可 能 舱 套 (也 束 是 说 ， 如 果 开 始 -结束 分 隔 符 岂 配 
恰当 ， 表 达 式 中 容许 包含 与 分 隔 符 一 样 的 字符 ) 。 因 为 圆 括号 和 方 括 号 在 正则 表达 式 中 经 常用 到 ， 
m C...) 和 m[...] 可 能 不 如 其 他 更 有 吸引 力 。 使 用 /x 修饰 符 时 ， 可 能 出 现下 面 的 形式 : 
|] |] Linux|] |] www.linuxidc.com |] [] 








m { 
regex # comments 
here # here 
bX; 
也 可 以 使 用 茶 种 组 合 标记 regex， 画 一 组 〈 如 条 你 喜欢 ， 也 可 以 用 同样 的 ) 标记 replacement。 例 如 : 


四 ao ( eee ) 
如 果 这 样 做 了 ， 束 可 以 在 两 对 分 隅 从 之 间 插 入 空格 和 注释 。 第 319 页 进一步 讲解 了 substitution 运 算 和 从 


的 replacement 运 算 元 。 
e 对 match 运 算 符 来 说 ， 把 问号 作为 分 隅 符 有 其 特殊 价值 〈 茶 目 更 多 的 匹配 ) ， 这 一 点 在 下 一 方 讲解 关 
于 match 运 算 符 时 讨论 〈 嗓 308) 。 
e288 页 已 经 提 到 ， 正 则 文字 被 解析 成 < 表示 正则 含义 的 双 引 亏 字 符 串 ”。 如 果 用 单 引 号 作 分 隅 符 ， 残 无 
法 使 用 这 些 功 能 。 使 用 m'... 时 就 不 会 进行 变量 插 信 ， 实 时 修改 文本 的 结构 《比如 \Q..E) 不 会 生效 ， 
\N{...} 也 无 法 使 用 。 也 许 在 使 用 包含 多 个 @ 的 正则 表达 式 时 m'...' 很 有 价值 ， 因 为 这 样 可 以 不 需要 转 义 。 
如 果 进 行 match 操 作 ， 而 分 隔 从 是 冬 线 或 者 问号 ， 可 以 省 略 m， 也 束 是 : 
Stext =~ m =f; 
$text =~ /e*/; 











是 等 价 的 。 但 我 更 于 欢 明确 写 上 m。 
正则 文字 的 解析 方式 


How Regex Literals Are Parsed 

大 多 数 情 况 下 ， 如 果 用 户 “ 只 会 用 到 ”上 文 讲解 的 正则 文字 特性 ， 束 不 圾 要 理解 Perl 将 它们 转换 为 真正 
的 正则 表达 式 的 具体 细 市 。 就 这 一 点 来 襄 ，Perl 和 直观 性 非常 方便 ， 但 是 许多 时 低 ， 了 解 细 节 并 无 坏处 。 下 
面 列 出 了 各 种 处 理 的 顺序 : 

1. 找 到 结束 分 隔 符 ， 读 入 修饰 符 《〈 例 如 /i 之 类 ) 。 下 面 的 处 理 束 能 判断 是 否 采 用 了 /x 之 类 的 模式 。 

2. 变 量 插值 。 

3. 如 果 使 用 了 正则 表达 却 重 载 ， 正 则 文字 的 每 个 部 分 都 会 交 给 重 载 子 程序 来 处 理 。 各 部 分 由 插 信 变量 
Ty Bas 插入 的 值 是 无 法 重 载 的 。 

如 果 正 则 表达 式 没 有 进行 童 载 ， 处 理 \N{...}。 

4. 应 用 大 小 写 转换 结构 例如 \Q..\E) 。 

5. 把 结束 提交 给 正则 引擎 。 

以 上 是 程序 员 眼 中 的 处 理 ， 但 是 Perl 内 部 的 处 理 其 实 是 很 复杂 的 。 单 单 是 第 二 步 ， 了 驶 必须 识 列 正则 表 
达 式 的 元 字符 ， 比 如 不 应 把 this$|that$) 下 画 线 的 那 部 分 识别 为 变量 。 


正则 修饰 符 


Regex Modifiers 

Perl HJ IE NE 5 75 4 FFE EU SCF AR ERT L S SE MB Aam... s... Agr.. iF 
的 i) 。 上 所 有 运算 符 都 文 持 的 核心 修饰 符 一 共有 5 种 ， 详 见 表 7-3。 

头 四 种 在 第 3 半 已 经 介绍 过 ， 它 们 能 够 作为 模式 修饰 从 (号 135) 或 者 范围 模式 修饰 从 (二 135) ， 在 
正则 表达 式 之 中 使 用 。 如 果 正 则 表达 式 内 部 出 现 了 修饰 从 ，match 运 算 从 也 用 到 了 修饰 从 ， 则 正则 表达 式 内 
部 的 修饰 符 的 优先 级 更 高 (从 男 一 方面 来 说 就 是 ， 一 旦 修饰 符 应 用 到 正则 表达 式 内 部 的 某 些 元 素 ， 这 些 元 
系 束 不 再 受 其 他 修饰 人 符 的 影响 )。 








表 7-3， 所 有 正则 运算 符 可 用 到 的 核心 修饰 符 


[| 日 日 Linux[| [|] www.linuxidc.com [] [] 


[á F110 进行 忽略 大 小 写 的 匹配 


/x F111 宽松 排列 和 注释 模式 
/s F111 点 号 通 配 模式 

/m F112 增强 的 行 锚 点 模式 
/0 F348 仅 编 译 一 次 





第 五 个 核心 修饰 符 /o， 与 效率 有 很 大 的 关系 。 此 问题 从 第 348 页 开始 讨论 。 

如 果 需 要 使 用 多 个 修饰 符 ， 只 需要 把 它们 并 排列 在 结束 分 隅 符 之 后 即 可 ， 排 列 的 顺序 是 无 关 紧 要 的 
( 注 3) 。 请 注意， 和 斜 线 本 身 不 是 修饰 符 ， 你 可 以 使 用 m/<tite> 外 m|<title>|i, Bem{<title>}i, HF 
是 mm 过 <title> i。 不 过 在 讲解 修饰 符 时 ， 通 行 的 做 法 是 加 上 一 个 和 斜 线 ， 例 如 “修饰 符 /i”。 


[| 日 Linux[| [|] www.linuxidc.com |] [] 


IE M RIE RHR H Perl Zw X 


Regex-Related Perlisms 

学 习 正 则 表达 式 ， 还 需要 掌握 许多 一 般 的 Perl 概 仿 。 下 面 几 节 的 内 容 包 括 : 

eV 用 场合 Ccontext) Perl ”的 重要 概念 之 一 束 古 ， 许 多 函数 和 运算 符 在 不 同 应 用 场合 有 不 同 的 音义。 
例如 ，Perl 的 while 循 环 希望 接收 一 个 纯 量 值 (scalar value) 作为 判断 条 件 ， 但 对 于 print 语 句 希 望 接收 一 组 
(Æ (a list of value〉。 因 为 Perl 容 许 表达 式 对 其 应 用 场合 进行 “ 啊 应 ”(respond〉 ， 同 样 的 表达 式 在 不 同 的 应 
用 场合 可 能 得 到 截然 不 同 的 结果 。 

es ASE FAI (dynamic scope) 大 多 数 编程 语言 都 支持 本 地 变量 和 全 局 变量 ， 但 是 Perl 还 提供 了 为 一 
种 复杂 功能 ， 称 为 动态 作用 域 。 动 态 作 用 域 会 临时 “保护 ?全 局 变量 ， 傈 存 一 份 副 本 ， 稍 后 目 动 恢复 。 这 个 
复杂 的 概念 对 我 们 来 说 很 重要 ， 因 为 它 影响 到 $1 和 其 他 的 匹配 相关 变量 。 


表达 式 应 用 场合 








Expression Context 

context 对 Perl 来 说 是 很 重要 的 概念 ， 尤 其 对 match 运 算 符 来 说 更 是 如 此 。 一 个 表达 式 可 能 出 现在 三 种 
context 中 : 序列 Gist) 、 纯 量 值 (scalar) BRA (void) ， 它 们 表示 表达 式 期 望 接收 的 参数 类 型 。 所 以 ， 
list context 说 明 表 达 式 期 望 获得 一 个 序列 。scalar context 说 明 表 达 式 期 望 获 得 单个 值 。 以 上 两 者 极为 弟 见 ， 
而 且 对 使 用 正则 表达 式 非 常 有 价值 。void context 说 明 不 期 望 获得 任何 值 。 

看 下 面 两 个 赋值 : 








SS = expression one; 
Qa = expression two; 


因为 $s 是 scalar 变 量 〔( 它 用 来 保存 蛙 个 的 值 ， 而 不 是 序列 ) ， 期 望 简 单 的 纯 量 值 ， 所 以 第 一 个 表达 式 的 
应 用 场合 为 scalar ”context。 同 样 ， 因 为 @a 是 一 个 数组 ， 期 望 获得 一 个 list， 第 二 个 表达 式 的 应 用 场合 为 list 
context。 即 使 这 两 个 表达 式 完 全 等 价 ， 也 可 能 返回 完全 不 同 的 结果 ， 产 生 不 同 的 影 啊 。 具 体 情 况 依 表达 式 
而 定 。 
SSMA, localtimerk 2040528 list context 中， 会 返回 一 组 值 ， 表 示 当 前 年 、 月 、 日 、 时 。 但 如 采用 
在 scalar context 中 ， 则 返回 文本 类 型 的 当前 时 间 ， 比 如 'Mon Jan 20 22: 05: 15 2003’. 

另 一 个 例子 是 <MYDATA> 之 类 的 MO 运算 符 ， 在 scalar ”context 中 ， 它 返回 文件 的 下 一 行 ， 但 是 在 list 
context, REMA CRI RAY) 行 。 

we Klocaltime#IV/OIW EAH, WS Pel AYRE BA HA IAA, IE Wie tf E 
样 如 此 。 拿 match 运算 符 m/.../ 来 说 ， 有 时 候 它 会 简单 地 返回 true/false 值 ， 有 时 候 返 回 一 组 匹配 结果 。 上 所 有 
的 细节 都 会 在 本 章 讲 解 。 

强 转 正则 表达 式 

不 是 所 有 的 正则 表达 式 天 生 都 能 区 分 场合 的 ， 所 以 ， 如 果菜 个 应 用 场合 中 正则 表达 式 无 法 提供 期 望 的 
返回 类 型 ， 就 要 按照 Perl 有 的 规定 处 理 。 为 了 把 方 桩 插入 圆 和 孔 ，Perl 会 “ 强 转 Ccontort) ”这 个 值 。 如 果 在 list 
context 中 返回 的 是 scalar 值 ，Perl 会 生成 只 包含 单个 元 素 的 list。 这 样 @a=42 就 等 于 @a= (42) 。 

另 一 方面 ， 把 list 转 换 为 scalar 却 没有 统一 的 规定 。 如 果 程 序 是 这 样 : 

$var=(S$this, &is,OxA, list’); 
= 有 逗 亏 运算 符 返 回 最 后 的 元 素 9ist' 给 $var。 如 果 给 定 的 是 一 个 数组 ， 例 如 $var=@array， 则 返回 数组 的 长 
后 党 

其 他 语言 用 不 同 的 术语 描述 这 种 处 理 ， 例 如 修正 〈cast) 、 提 示 (promote) 、 强 制 转换 (coerce) 或 
转换 (convert) ， 但 是 我 认为 这 些 词 都 已 经 上 共有 了 目 己 的 意义 《有 点 令 人 讨厌 ) ， 不 适合 摘 述 Perl 的 做 
法 ， 所 以 我 使 用 “ 强 转 (contort) ”。 





动态 作用 域 及 正则 匹配 效应 


Dynamic Scope and Regex Match Effects 


Perl 的 变量 分 为 两 类 全 局 变量 和 私有 变量 ) HAARE EE n OE ae EL] 





时 也 需要 关注 此 概念 ， 因 为 它 天 系 到 匹配 完成 之 后 信息 如 何 使 用 。 下 一 布 介绍 了 这 些 概念 及 其 与 正则 表达 
FUN KK 

全 局 和 私有 变量 

ARKH, Perl 提供 了 两 种 变量 : 全 局 的 和 私有 的 。 私 有 变量 使 用 my C.) 来 声明 ， 全 局 变量 不 需要 
声明 ， 在 使 用 时 会 自动 出 现 。 全 局 变量 通 弟 在 程序 的 任何 地 方 都 是 可 见 的 ， 而 私有 变量 ， 按 照 语 言 的 规定 
只 有 在 它们 所 属 的 代码 块 之 内 才 是 可 见 的 。 也 束 是 说 ， 只 有 私有 变量 声明 所 在 的 代码 块 之 内 的 Perl 代 码 ， 
能 够 访问 私有 变量 。 

全 局 变量 的 使 用 则 很 普通 ， 只 是 有 的 特殊 变量 不 太 好 理解 ， 例 如 $1、$_、@ARGB 之 类 。 普 通用 户 的 
变量 是 全 局 的 ， 除 非 它们 以 my 来 声明 ， 人 否则 即使 它们 “看 上 去 ?是 私有 的 ， 也 是 全 局 变量 。 按 照 Perl 的 规 
定 ，Package Acme: : Widget 中 的 全 局 变量 4$Debug， 虽 然 有 完整 的 限定 名 $Acme: : Widget: : Debug, 
仍然 是 一 个 全 局 变量 。 如 果 出 现 了 use strict; ， 则 所 有 《不 包括 特殊 的 ) 全 局 变量 必须 使 用 完整 的 限定 
名 ， 或 者 通过 our 来 声明 〈our 声 明 一 个 名 称 (name) ， 而 不 是 一 个 新 变量 ， 请 参考 Perl 的 文档 ) 。 

使 用 动态 作用 域 的 值 

动态 作用 域 (dynamic scoping) 征 个 值得 一 提 的 概念 ， 很 少 有 编程 语言 提供 这 种 功能 。 下 文 会 讲解 它 
与 正则 表达 式 的 关系 ， 简 单 地 说 ， 动 态 作 用 域 可 以 让 Perl 保 存 全 局 变量 的 一 个 副本 ， 在 某 个 代码 块 中 修改 
此 副本 ， 退 出 之 后 上 自动 恢复 原来 的 值 。 保 存 副 本 的 操作 束 称 为 生成 动态 作用 域 (creating a new dynamic 
scope) ， 或 者 本 地 化 Clocalizing) 。 

使 用 动态 作用 域 的 原因 之 一 是 为 了 临时 改变 茶 些 保存 在 全 局 变量 中 的 茶 些 全 局 状态 。 举 例 来 说 ， 
package Acme: : Widget 提供 了 一 个 调试 标志 位 Clag) ， 我 们 可 以 修改 全 局 变量 $Acme: : Widget: : 
Debug 来 局 用 或 者 俘 用 调 斌 功能。 下面 鸭 代码 可 以 临时 改变 此 标志 位 : 

















Ne 








local ($Acme::Widget::Debug) = 1; # 确保 局 用 
# 此 时 Acme: :Widget::Debug 已 启用 ， 可 以 调试 


# SAcme::Widget::Debug 现在 恢复 到 原来 的 值 

local 函 数 的 命名 很 成 问题 ， 但 它 生成 了 一 个 新 的 动态 作用 域 。 调 用 local 并 没有 创造 新 的 变量 ，local 是 
行为 ， 而 不 是 声明 。 在 全 局 变量 之 前 ，local 做 了 三 步 处 理 : 

1. 在 内 部 保存 变量 值 的 副本 ; 

2. 把 新 值 赋予 到 变量 (无 论 是 undef 还 是 传 给 local 的 值 〉; 

3.local 代 码 块 执行 结束 之 后 ， 把 变量 恢复 到 之 前 的 值 。 

也 就 是 说 ，“local” 指 的 是 对 变量 的 修改 的 持续 时 间 。 对 本 地 化 的 变量 来 襄 ， 持 续 时 间 束 是 代码 块 执 行 
的 时 间 。 如 果 代 码 块 中 调用 了 子 程序 ， 本 地 化 的 值 仍 然 保 留 〈 毕 葛 ， 变 量 仍然 是 一 个 全 局 变量 ) 。 它 与 非 
本 地 化 的 全 局 变量 的 唯一 区 别 是 ， 在 代码 块 执行 完成 之 后 ， 之 前 的 值 会 被 恢复 。 

local 对 全 局 变量 的 目 动 你 存 和 恢复 比 想 象 的 要 复杂 。 请 参考 表 7-4 右 人 出 ， 评 细 了 解 背 后 的 处 理 。 

为 方便 起 见 ， 我 们 也 可 以 给 本 地 变量 赋 一 个 值 local ($SomeVar) ， 这 等 于 把 undef 赋 值 给 $SomeVar。 
如 果 不 使 用 插 写 ， 表 示 强 制 使 用 scalar context. 

举 个 实际 的 例子 ， 我 们 需要 调用 一 个 写 得 很 糟 料 的 疯 数 ， 而 它 会 产生 许多 “Use of uninitialized value” HY 
和 警告。 优秀 的 Perl 程 序 员 都 会 使 用 Perl 的 -w 选 项 来 解决 这 个 问题 ， 但 是 库 的 作者 

表 7-4: local 的 含义 














[| 日 日 Linux[| || www.linuxide.com [] [] 


普通 Normal 程序 等 价 程序 
| | 
local (SSomeVar); # save copy my STempCopy = $SomeVar; 
sSomeVar = undef; 


SSomeVar = 'My Value'; SSomeVar = 'My Value’; 
SSomeVar = STempCopy; 
} # 自动 恢复 到 之 前 的 值 } 
显然 没有 。 你 对 这 些 警告 非 钊 恼火， 但 是 如 末 不 能 修改 程序 库 ， 有 什么 其 他 简便 办 法 来 代 蔡 -w 吗 ? 这 


时 候 可 以 使 用 对 $ 和 AW 的 调用 的 local， 即 时 关闭 警报 〈AW 可 以 表示 为 两 个 字符 ， 脱 字符 和 “ww:， 也 就 是 
ctrl+W) 。 





local $^W = 0; # MRAM] Sik 
UnrulyvPuncrion (=) 5 

} 

# 退出 代码 块 ， 把 $^W 恢 复 到 原来 的 值 


无 论 全 局 变量 $AW 是 什么 值 ， 调 用 ]ocal 保 存 都 会 为 其 保存 一 份 内 部 副本 。 然 后 SW 被 用 户 置 为 0。 上 

— ee Perl 检查 $AW， 发 现 其 值 为 0， 束 不 会 发 出 和 警报。 在 函数 返回 时 ， 新 值 0 仍 然 
XX o 

这 样 看 来 ， 不 用 local 的 话 似乎 也 没有 问题 。 不 过 ， 在 子 程序 返回 ， 代 但 块 退 出 时 ，$^AW 会 恢复 到 之 前 
的 值 。 这 种 改变 是 本 地 的 、 即 时 的 ， 只 在 代码 块 内 部 生效 。 按 照 表 7-4 右 侧 的 做 法 ， 用 户 可 以 手工 生成 和 返 

副本 ， 达 到 同样 的 效果 ， 但 是 local 更 为 方便 。 

考虑 在 其 他 情况 下 会 发 生 什 么 ， 比 如 用 my loca GE4) 。my 会 新 建 一 个 变量 ， 其 初始 值 是 
undef。 只 有 在 声明 的 代码 块 中 才 可 见 〈 也 就 是 说 ， 在 my 和 它 所 在 的 代码 块 结束 之 间 )〉 。 它 不 会 改变 、 修 
改 ， 或 以 其 他 方式 引用 和 影响 其 他 变量 ， 包 括 可 能 存在 的 同样 名 字 的 全 局 变量 。 新 建 的 变量 在 程序 的 其 他 
部 分 都 不 可 见 ， 包 括 在 那个 糟糕 的 程序 内 。 这 样 新 的 9$AW 的 确 被 置 为 0， 但 永远 不 会 再 使 用 或 者 引用 ， 上 所 以 
它 完 全 是 白费 工夫 〈 执 行 粳 糕 的 程序 时 ，Perl 根 据 与 其 无 关 的 全 局 变量 94AW 诀 定 是 否 报警 ) 。 

更 好 的 比喻 : 充分 的 透明 虔 

可 以 这 样 理解 jocal， 它 对 变量 的 修改 是 用 户 完全 无 法 穴 沉 的 〈 好 像 是 把 新 值 投影 到 原 变 量 之 上 ) 。 用 
户 〈 还 包括 能 看 到 的 任何 人 ， 例 如 子 程序 和 信和 号 处 理 程 序 ) 会 看 到 这 些 新 的 值 。 在 代码 块 结束 之 前 ，local 
的 修改 会 取代 之 前 的 值 。 退 出 之 后 ， 这 种 透明 特性 会 目 动 消除 ， 也 惑 是 取消 local 进 行 的 所 有 修改 。 

相 比 “保存 一 个 内 部 副本 ， 这 个 比喻 更 接近 现实 。 使 用 local 并 不 会 生成 一 个 副本 ， 而 是 在 访问 变量 
时 ， 使 用 新 设置 的 值 〈( 即 屏蔽 原来 的 值 )。 退 出 代码 块 之 后 会 殷 弃 新 设置 的 值 。 调 用 local 时 ， 新 值 是 手动 
设置 的 ， 但 我 们 要 讲解 这 些 细 节 的 原因 在 于 : 正则 表达 式 的 伴随 效应 变量 (side-effect variables) 会 目 动 使 
用 动态 作用 域 。 

正则 表达 式 的 伴随 效应 和 动态 作用 域 

正则 表达 式 与 动态 作用 域 有 什么 关系 昵 ? 关 系 很 大 。 作 为 伴随 效应 ， 许 多 变量 一 一 例如 $& (引用 匹配 
的 文本 ) 和 $1 〈 引 用 第 一 组 括号 内 表达 式 匹 配 的 文本 ) 一 一 会 在 匹配 成 功 时 目 动 设置 。 在 下 一 节 会 详细 讨 
论 这 些 问 题 。 在 其 所 处 的 代码 块 中 ， 这 些 变 量 都 会 日 动 使 用 动态 作用 域 。 

这 种 设计 的 好 处 在 于 ， 每 次 调用 子 程序 都 要 启动 狐 的 代码 块 ， 也 就 是 为 这 些 变 量 提 供 了 新 的 动态 作用 
域 范 围 。 因 为 在 代码 块 之 前 的 值 会 在 代码 块 执行 完 之 后 恢复 〈 也 束 是 子 程序 返回 时 ) ， 子 程序 不 能 改变 调 
用 方 能 看 到 的 值 。 

来 看 个 例子 : 








[| 日 Linux[| [|] www.linuxidc.com |] [] 


if ( mf (=J ) 
{ 
DoSomeOtherStuff (); 
print "the matched text was $1.\n"; 


因为 $1 的 值 在 进入 代码 块 时 进行 了 动态 作用 域 处 理 ， 这 段 代 码 不 关心 也 不 必 关 心 ， 函 数 
DoSomeOtherStuff 是 否 改 变 了 $1 的 值 。 此 函数 对 $1 的 任何 改动 都 只 在 函数 定义 的 代码 块 内 部 ， 或 者 函数 的 
子 代 码 块 中 生效 。 所 以 ，DoSomeOtherStuff 不 会 影响 print 接 收 的 $1 的 值 。 

目 动 使 用 动态 作用 域 很 有 用 ， 虽 然 有 时 候 不 那么 明显 : 


if (Sresult =~ m/ERROR=( .*)/) { 
warn "Hey, tell SConfig{perladmin} about $1!\n"; 
} 
标准 库 模 块 Config 定义 了 一 个 关联 数组 (associative array) %Config, H m $Config-{perladmin} (RF 
本 地 Perlmaster 的 E-mail 地 址 。 如 果 $1 没 有 使 用 动态 作用 域 ， 这 段 代 码 束 很 难 理解 ， 因 为 %Confg 是 一 个 绑 
定 变量 (tied variable〉。 了 也 就 是 说 ， 对 它 的 任何 引用 都 意味 着 敌后 的 子 程序 调用 ， 用 $Config{...} 进 行 正 则 
表达 式 匹 配 时 ，Config 中 的 子 程 序 返 回 对 应 的 值 。 这 次 匹配 发 生 在 上 一 行 的 区 配 和 对 $1 的 使 用 中 则 ， 所 以 
如 果 $1 没 有 使 用 动态 作用 域 ， 它 的 值 会 被 修改 。 所 以 ，$Config{...} 中 对 $1 的 任何 修改 都 被 动态 作用 域 安 全 
地 保护 了 起 来 。 
动态 作用 域 还 是 词法 作用 域 
如 果 使 用 恰当 ， 动 态 作 用 域 能 提供 许多 便利 ， 但 是 滥用 动态 作用 域 会 种 来 无 休止 的 于 梦 ， 因 为 阅读 程 
序 的 人 很 难 理解 ， 分 散在 散落 的 local、 子 程序 和 本 地 变量 引用 之 间 的 复杂 交互 。 
我 兽 说 ，my C...) 声明 会 在 词法 范围 Clexical scope) 内 创造 一 个 私有 变量 。 与 私有 变量 的 词法 范围 
对 应 的 古 全 局 变量 的 范围 ， 但 是 词法 范围 与 动态 作用 域 没 有 关系 〈 仪 有 的 联系 是 : 不 能 对 my 变量 调用 
local)。 请 记 住 ，local 只 是 行为 (action) ， 而 my 既是 行为 ， 又 是 声明 ， 这 很 重要 。 


匹配 修改 的 特殊 变量 








Special Variables Modified by a Match 

RIRES WE A IN eee, CIEE as BI AS EA. BROAN, EEE 
水 远 也 不 会 改变 。 在 需要 的 时 候 ， 它 们 会 设置 为 空 字符 串 《〈 不 包括 任何 字符 的 字符 串 ) 或 者 undefind (“未 
定义 ”， 一 个 “没有 值 ?的 什 ， 与 空 字 符 串 关 似 ， 但 测试 时 两 者 不 相等 ) 。 表 7-5 给 出 了 和 在 干 例子 。 

详细 地 说 ， 匹 配 完 成 之 后 会 设置 这 些 变量 : 

$& 正 则 表达 式 所 匹配 文本 的 副本 。 从 效率 方面 考虑 (参见 第 356 页 的 讨论 ) ， 最 好 不 要 使 用 这 个 变量 
(还 包括 下 面 介绍 的 $ 和 $) 。 一 旦 匹配 成 功 ，$& 就 不 会 是 未 定义 状态 ， 尽 管 它 可 能 是 空 字符 串 。 

表 7-5: 匹配 后 特殊 变量 的 说 明 











[| 日 日 Linux[| || www.linuxidc.com [] [] 


如 下 匹配 完成 之 后 


12 23 4 4 31 
"Pi is 3.14159, roughly" = m/\b( (tasty | fattening) | (\d+ ie \d*) Ts 
设置 了 下 面 的 特殊 变量 

变量 含义 值 

$* 匹配 文本 之 前 的 文本 Pitis: 

$ & 匹配 文本 3.14159 

$! 匹配 文本 之 后 的 文本 , roughly 

Si p 1 ade > ERLA 3.14159 

a2 第 2 组 括号 匹配 的 文本 undef 

$3 第 3 组 括号 匹配 的 文本 3.14159 

$4 第 4 组 括号 匹配 的 文本 .14159 

$+ yy KY ES LACH KA sialo 

$“N 最 后 结束 的 括号 匹配 的 文本 3.14159 


@- 目标 文本 中 各 匹配 开始 位 置 的 偏 移 值 数组 (6, 6, undef, 6, 7) 
@+ 目标 文本 中 各 匹配 结束 位 置 的 偏 移 值 数组 | (13, 13, undef, 13, 13) 








$ 在 目标 文本 中 匹配 开始 之 前 左边) 文本 的 副本 。 如 果 使 用 /g 修 饰 符 ， 你 可 以 期 望 $ 

的 起 点 是 开始 尝试 位 置 的 文本 ， 但 它 每 次 都 是 从 整个 字符 串 的 开始 位 置 开始 的 。 如 果 匹 

配 成 功 ，” 肯定 不 会 是 未 定义 状态 。 

$ 保存 目标 文本 中 匹配 成 功 文本 之 后 〈 右 边 ) 的 文本 的 副本 。 如 果 匹 配 成 功 ，$ 肯定 不 会 是 未 定义 
状态 。 匹 配 成 功 之 后 ， 字 符 串 "3” 3& 5'" 就 是 目标 字符 串 的 副本 GES) 。 

$1. $2. $3, ... 

对 应 第 1. 2. 3 组 捕获 型 括号 匹配 的 文本 (请 注意 ， 这 里 没有 $0， 因 为 它 是 脚本 的 名 字 ， 与 正则 表达 
式 无 关 ) 。 如 果 它 们 对 应 的 括号 在 表达 式 中 不 存在 ， 或 者 没有 实际 参与 匹配 ， 则 设置 为 未 定义 状态 。 

匹配 之 后 就 可 以 使 用 这 些 变 量 ， 在 s/.../.../ 中 的 replacement 也 可 以 使 用 。 它 们 还 能 在 动态 正则 结构 或 者 
可 入 代码 中 使 用 (327) 。 在 正则 表达 式 中 使 用 这 些 变量 是 没 多 少 意义 的 (因为 已 经 有 了 M 之 类 ) 。 
请 参考 第 303 页 的 “在 正则 表达 式 中 使 用 $1”。 

Aw | Al! Ow) +) 的 区 别 可 以 用 来 说 明 $1 的 设置 方式 。 两 个 表达 式 都 能 匹配 同样 的 文 注 5: F 
实 上 ， 即 使 目标 字符 串 是 未 定义 的 ， 但 能 匹配 成 功 ( 虽 然 不 太 现实 ， 但 有 可 能 ) ，" ”5& S" 是 一 个 空 字 
符 串 ， 而 不 是 未 定义 。 只 有 在 这 种 情况 下 ， 两 者 才 不 一 样 。 

本 ， 但 是 它们 的 区 别 在 于 括号 内 的 子 表达 式 匹 配 的 内 容 。 用 这 个 表达 式 匹 配 字 符 串 stubby ， 第 一 个 表 
达 式 的 $1 的 内 容 是 ‘tubby’"， 而 第 二 个 表达 式 中 的 $1 只 包含 yrY: 在 1 Ow) +) 中 ， 加 号 在 括号 外 面 ， 所 以 每 
次 迭代 都 会 重新 捕获 ，$1 保 留 最 后 的 字符 。 

还 需要 注意 的 是 ' (x) ? | A! (x? ) | 的 差别 。 前 一 个 表达 式 中 括号 及 其 捕获 内 容 不 是 必然 出 现 
的 ， 所 以 $1 可 能 是 :x?"， 或 者 是 未 定义 ， 但 和 (x? ) | 中 括号 在 匹配 的 外 面 一 匹配 的 内 容 不 是 必然 出 现 
的 ， 但 匹配 必须 发 生 。 如 果 整 个 表达 式 匹 配 成 功 ， 这 部 分 的 匹配 必然 会 发 生 ， 尽 管 x? | 匹配 的 是 空 字符 
串 。 所 以 在 1 (x? ) | 中，$1 可 能 是 ‘x' 或 者 是 空 字符 串 。 下 表 给 出 了 一 些 例子 : 


[| 日 日 Linux[| [|] www.linuxidc.com |] [] 











实例 £ 
"zi" =r m/s (A?) :/ ZPR 
Wee sa m/s (A) 2:/ "eart Ss Ts Cw) Ey REAL 
"sAs" =~ m/: (A?) :/ "sWord:" =~ m/:(\w*):/ | word 
"eA" =~ m/: (A)?:/ "Word" == my: yay "iy |a 


从 上 表 可 以 看 出 ， 如 果 需 要 添加 括号 来 捕获 文本 ， 如 何 添加 取决 于 我 们 的 意图 。 在 所 举 的 例子 中 ， 增 
加 的 括号 对 整体 匹配 没有 影响 (整体 匹配 是 不 变 的 ) ， 其 中 唯一 的 区 别 就 是 $1 设置 的 伴随 效应 。 
$+ 表示 $1、$2 等 匹配 过 程 中 明确 设 定 的 ， 编 号 最 大 的 变量 的 副本 。 在 下 面 的 情况 中 会 有 用 : 


Surl == mi 











href \s* = \s* # 匹配 "href = "， 然 后 是 它 的 值 ... 
(?: Bq] *) 1 # 双 引 号 字符 事 ， RA... 
| FRL IS ?” # 单 引 号 字符 事 ， 或 者 ., 
it 


| ([*'"<>]+) ) 
FIX} 

如 果 没 有 $+， 我 们 可 能 需要 依次 检查 $1、$2 和 $3， 才 能 找 出 明确 设置 的 那个 。 

如 果 正 则 表达 式 中 没有 捕获 型 括号 (或 者 在 罗 配 中 没有 用 到 〉， 则 这 个 值 为 未 定义 。 

$AN 最 后 结束 的 ， 在 匹配 中 明确 设 定 的 括号 匹配 的 文本 的 副本 〈 明 确 设 定 的 $1 等 变量 中 ， 闭 括号 在 最 
后 ) 。 如 果 正 则 表达 式 中 没有 捕获 型 括号 《或 者 匹配 中 没有 用 到 ) ， 则 其 值 为 未 定义 。 第 344 页 开头 有 个 恰 
当 有 的 例子 。 

@- 和 和 @+ 

表示 各 捕获 型 插 号 所 匹配 文本 的 起 始 和 结束 位 置 在 目标 文本 中 侦 移 值 的 数组 。 使 用 起 来 可 能 有 点 迷 
惑 ， 因 为 它们 的 名 字 比 较 怪 民 。 两 个 数组 的 第 一 个 元 素 都 对 应 整体 匹配 。 也 融 是 说 ， 通 过 $-[0] 访 问 到 的 @- 
的 第 一 个 元 系 ， 是 整个 岂 配 在 目标 字符 串 中 的 偏 移 值 ， 即 : 


Stext = "Version 6 coming soon?"; 


非 引 号 形式 的 值 





Stext =~ m/\dt+/; 


$-[0] 的 值 为 8， 代表 匹配 从 目标 字符 串 的 第 8 个 位 置 开始 (在 Perl 中 ， 俩 移 值 从 0 开始 ) 。 

@+ 的 第 一 个 元 又 通 过 $+[0] 访 问 ， 表 示 对 应 匹配 文本 结束 位 置 的 偏 移 值 。 在 上 例 中 其 值 为 9， 表 示 整 体 
罗 配 结束 于 目标 字符 串 的 第 9 个 字符 之 前 。 所 以 ， 如 采 $text 没 有 变化 ，substr ($text; $-[0]; $+[0]-$-[0]> 
就 等 于 $&， 但 没有 $& 那 样 的 性 能 缺陷 〈 嗓 356) ， 下 例 给 出 了 @- 的 简单 用 法 : 

1 while $Sline=~s/\t/"x (8-$-[0]%8)/e; 

它 会 把 给 定 文本 中 的 制 表 符 ab) 蔡 换 为 合适 长 度 的 空格 序列 《〈“ 注 6) 。 

两 个 数组 中 接 下 来 的 元 素 分 别 对 应 各 捕获 分 组 的 开始 位 置 和 结束 位 置 的 俩 移 值 。$-[1 和 $+[ 对 应 
$1，$-[2] 和 $+[2] 对 应 $2， 依 次 类 推 。 

SAR 这 个 变量 保存 最 近 执 行 的 嵌入 代码 的 结果 ， 如 果 典 入 代码 结构 作为 C? if thenlelse) | 条件 语句 
C140) 中 的 站 部 分 ， 则 不 设 定 SAR。 在 正则 表达 式 内 部 〈 即 在 租 入 代码 或 者 动态 正则 结构 写 327 中 ) ， 
它 会 目 动 根据 匹配 的 各 部 分 进行 本 地 化 处 理 ， 所 以 因为 回调 而 “交还 ?的 代码 对 应 的 $AR 的 值 会 被 放 痉 。 换 
一 种 说 法 融 是 ， 它 保存 引擎 到 达 当 前 状态 的 工作 路 径 中 “最 近 ” 的 值 。 

如 条 正 则 表达 陈 根据 /g 修 饰 符 重 复 使 用 ， 那 么 每 次 循环 都 会 重新 设置 这 些 变 量 。 也 惑 是 说 可 以 在 S/.…/ 
.../g 中 使 用 $1， 因 为 每 次 匹配 时 它 的 值 都 不 一 样 。 

在 正则 表达 式 中 使 用 $1 

Perl 手 册 专 门 提 到 ， 在 正则 表达 式 外 部 ， 不 能 用 \L1| 反 向 引用 “而 应 该 使 用 $1) 。 变 量 $1 对 应 上 次 成 


功 匹 配 中 的 某 个 固定 字符 串 。 M UTES A EOE aE FAV WA ideti 口 














号 捕获 的 文本 。 在 NFA 的 回溯 过 程 中 ， 它 的 值 可 能 会 变化 。 

与 之 对 应 的 问题 是 ， 正 则 运算 元 中 是 否 能 够 使 用 $1 之 类 的 变量 。 通 常 ， 在 内 髓 代码 或 者 动态 正则 结构 
(327) 中 可 用 ， 在 其 他 情况 下 就 没什么 音义。 出 现在 运算 元 中 “表达 式 部 分 ”的 $1 与 其 他 变量 一 样 处 理 : 
FEV ACE Br RREI Se IT TEE 也 就 是 说 ， 对 正则 表达 式 而 言 ，$1 与 当前 的 匹配 没什么 关系， 它 属于 上 一 
次 匹配 。 





[| 日 日 Linux[| || www.linuxide.com [] [] 


qr/.../ 运 算 侍 与 regex 对 象 


The qr/.../Operator and Regex Objects 

在 第 2 间 和 第 6 章 已 经 简要 介绍 过 (号 76，277) 一 元 运算 符 q.../， 其 运算 元 为 正则 表达 式 ， 返 回 regex 
AY Ao BERRAR NRL Ja TIES TARDE BR APE, BEAT MEAIB EKRE 
部 分 。 

regex 对 和 象 主要 用 来 把 正则 表达 式 封 深 为 一 个 单元 ， 构 建 大 的 正则 表达 式 ， 以 及 提 融 效率 在 正则 表达 
式 编译 时 提 蜗 控制 能 力 ， 讨 论 见 下文 )。 

291 页 已 经 介绍 过 ， 用 户 可 以 使 用 目 己 的 分 隔 符 ， 例 如 qr{.…} 或 者 qr! ...! 。 它 还 文 持 核心 修饰 
从 i、/Xx、/s、/m 和 /0o。 





构建 和 使 用 regex 对 和 象 


Building and Using Regex Objects 
下 面 的 表达 式 来 日 第 2 革 C76) : 
my $HostnameRegex = qr/[-a-z0-9]+(? :\.[-a-z0-9] +)*\.(?: com|edu|info) /i; 


my SHttpUrl = qrt 


http:// $HostnameRegex \b # Hostname 
cx 
/ [-a-z0-9-:\@&?=+,.!/~*'S\S]* # 可 能 出 现 的 path 
WS | SD # 不 容许 以 [.,，?!] 结尾 
r? 
}ix; 


第 一 行 代 码 把 匹配 主机 名 上 所 用 的 简单 正则 表达 式 封 痛 为 regex 对 象 ， 体 存 到 变量 $Hostname-Regex 中 - 
下 一 行使 用 该 变量 构建 匹配 HITP URL 的 regex 对 象 ， 保 存 到 $HttpUrl 中 。 构 建 完成 之 后 就 可 以 以 多 种 方式 
使 用 ， 例 如 : 
if ($text =~ SHttpUrl) { 
print "There is a URL\n"; 
} 
用 来 检测 ， 或 者 : 
while ($text =~ m/(SHttpUrl)/g) { 
print "Found URL: $1i\n"; 
} 


用 来 搜索 和 显示 所 有 的 HTPP URL. 
如 果 按 照 第 5 章 的 讲解 (号 205) 修改 $HostnameRegex: 


my SHostnameRegex = qr{ 

# 一 个 或 多 个 点 号 分 隔 部 分 

(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}[a-z0-9]\. ) * 

# 后 级 

(?: com|edu|gov|int|mil|net|org|biz|info|-::|aero|[a-z][a-z] ) 
xi; 





它 的 使 用 方式 与 之 前 的 例子 相同 (开头 没有 ^| ， 结 尾 没 有 $| ， 也 没有 捕获 型 括号 ) ， 所 以 ， 我 们 
的 蔡 换 不 受 限 制 。 这 样 能 得 到 更 准确 的 $HttpUrl。 

罗 配 模式 (即使 不 设置 ) 是 不 可 更 改 的 

gr/../ 支 持 292 页 介绍 的 核心 修饰 符 。regex 对 象 半 电网 建 世 成 in 寺 痊 拆 达 现 和 NM Haba COm se | L 


regex 对 和 象 所 在 的 m/.../ 有 自己 的 修饰 从 也 是 如 此 。 下 和 面 的 代码 就 不 正确 : 
my $WordRegex = qr/\b \w+ \b/; # 这 里 忘 了 添加 修饰 符 /x 


I ibat =~ m/* (SWordRegex) /x) { 


print “found word at start of text: $1l\n"; 
} 


这 里 希望 用 /x 修饰 $WordRegex 的 匹配 模式 ， 但 是 这 并 不 管用 ， 因 为 在 $SWordRegex 生 成 时 修饰 从 (即使 
不 设置 ) 被 锁定 在 qr/.../ 中 。 所 以 ， 修 饰 从 必须 在 恰当 的 时 候 使 用 。 
下 和 面 的 代码 则 没有 问题 : 
my SWordRegex = gr/\b Nw+ \b/x; # AMA! 
if ($text =~ m/*($WordRegex)/) { 


print "found word at start of text: lyn"; 
} 


现在 来 比较 开始 的 代码 和 下 面 的 代码 : 


my $WordRegex = '\b \w+ \b'; # i FA Oe 
if ($text =~ m/*(SWordRegex)/x) { 


print “found werd. at start of text: 有 LV 
} 


这 上 段 代码 没 问 题 ， 尺 管 $SWordRegex 生 成 时 没有 任何 修饰 和合 。 因 为 $ 了 WordRegex 是 普通 变量 ， 你 存 普通 


IR 
的 字符 串 ， 用 作 m.. /的 插值 。 因为 各 方面 的 原因 ， 用 字符 串 构建 正则 表达 式 比 regex 对 象 要 有 抹 烦 得 多 ， 比 
如 在 这 个 例子 中 ， 必 须 记 住 $WordRegex 必 须 和 /x 一 起 使 用 才 行 


我 们 也 可 以 只 使 用 字符 串 解决 这 个 问题 ， 只 需要 在 表达 大 式 中 WE PRE IE A] (135) : 
my SWordRegex = '(?x:\b \wt \b)'; # 普通 字符 串 


te (tert =~ m/*(SWordRegex)/) { 
prant “found word at start of text: FIn"; 
} 
此 时 ，my.../ 的 正则 文字 插值 之 后 ， 正 则 引擎 接收 到 “和信 C? x: \b"\Ww+"\b) ) | ， 这 就 是 我 们 期 望 的 
结 
其 实 这 就 是 生成 regex 对 象 的 逻辑 过 程 ， 只 是 regex 对 象 对 于 每 个 模式 修饰 符 ， 都 明确 定义 
了 “onz 或 coff* 的 状态 。 Fa gr/\b-\w+-\b/x4E a | (? x-ism: \b-\w+-\b) | o TATE RRB TAT AY WE | C? x- 


ism: ...) | ， 这 里 启用 了 /x， 禁 止 了 i、/s 和 /m。 也 就 是 说 ， 无 论 是 否 指 定 qr/.../ 的 修饰 人 符 ，regex 对 象 总 
E“ 定 "在 AAA Fe 


探 完 regex 对 象 
Viewing Regex Objects 
前 面 讨论 了 regex 对 象 综合 正则 表达 式 和 模式 修饰 符 一 -例如 (? x-ism: ...) | 一 一 的 逻辑 过 程 。 如 
宁 在 Perl 期 望 接 收 字符 串 的 地 方 使 用 regex 对 象 ，Perl 会 把 它 转换 为 对 应 的 文本 表示 方式 ， 例 如 : 


% perl -e 'print qr/\b Nw+ \b/x, "\n"' 
(?x-ism:\b \wt \b) 
这 就 是 第 304 页 的 $HttpUrl 的 转换 结果 : 


中 上 局 Dinux [|] www.linuxidce.com |] [] 


(?i1x-sm: 
bttp (oie 
# 一 个 或 多 个 点 号 分 隔 部 分 


(2: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}[a-z0-9]\. ) * 
# 后 级 
(?: com|edu|gov|int|mil|net|org|biz|info|-:::|aero|[a-z][a-z] ) 
) \b # hostname 
EF 
/ [-a-z0-9-:\@&?=+,.!/~*'S\S]* # 可 能 出 现 的 Path 
(34 [ [es 21]) # 不 能 以 [。,?!] 结尾 


i 
) 
把 regex 对 象 转换 为 字符 串 的 功能 在 调试 时 很 有 用 。 


Fo regex} He ray BH 


Using Regex Objects for Efficiency 
使 用 regex 对 象 的 主要 原因 之 一 是 便于 控制 。 为 了 提高 效率 ，Perl 会 把 正则 表达 云 纺 详 为 内 部 形式 。 第 6 


间 人 简 要 介绍 了 正则 表达 式 编 译 的 一 般 知 识 ， 但 是 更 复杂 的 Perl 相 关 问 题 ， 包 括 regex 对 象 之 类， 都 在 “正则 
表达 式 编译 、/o 修饰 符 、gx/.../ 和 效率 ”(348) 中 详细 讨论 。 


[| 日 Linux[| |] www.linuxidc.com [| L 


Matchizs IT 


The Match Operator 
基本 的 匹配 操作 : 
$text=~m/regex/ 
是 Perl 的 正则 表达 式 应 用 的 核心 。 在 Perl 中 ， 正 则 表达 式 罗 配 操 作 和 需要 两 个 运算 元 ， 其 一 十 目标 字符 
其 二 是 正则 表达 式 ， 返 回 一 个 值 。 
匹配 如 何 进行 ， 返 回 什 么 什 ， 取 决 于 匹配 的 应 用 场合 〈 军 294) 及 其 他 因 系 。match 运算 从 非常 方便 
EA DAFA RDU ES IE MU Zea SHE FB VL BEB BC AP AEB A peA, BPE 与 其 他 匹配 
= 虽然 功能 蝇 大 ， 这 种 便捷 也 增加 了 和 擎 握 的 难度 。 需 要 关注 的 内 容 包 
e 如 何 指定 正则 运算 元 
e 如 何 HAE DLAC IE TB 以 及 它们 的 意义 。 
e 如 何 指定 目标 字符 串 。 











o LEE HITE BERUM o 

o PLAC HIR PHE - 

e 能 影 啊 匹 配 的 外 部 因素 。 
ULARI E LÉRE: 


StringOperand=~RegexOperand 
还 有 许多 简便 方式 ， 值 得 注意 的 是 ， 余 些 简 便 形式 下 ， 两 个 运算 元 部 不 是 必须 出 现 的 。 本 市 中 我 们 会 
看 到 各 种 形式 的 例子 。 





Match 的 正则 运算 元 


Match's Regex Operand 

w eee ee CSE AY Ae PFT a Be ERA AIA TL, (AER ITA 
好 处 ) 。 如 条 使 用 正则 文字 ， 可 以 指定 修饰 符 

使 用 正则 文字 

正则 运算 元 通常 是 m/.…/ 或 者 就 是 /…./ 内 的 正则 文字 。 如 果 正 则 文字 的 分 隔 符 是 斜 线 或 问号 〈 以 问号 做 
分 隅 符 的 情况 很 特殊 ， 稍 后 讨论 ) 则 可 以 省 略 开 头 的 中。 为 保持 一 致 ， 我 不 管 是 否 必 要 都 使 用 mm。 之 前 介 
绍 过 ， 如 果 使 用 m， 你 可 以 使 用 目 己 的 分 隔 从 (291) 。 

使 用 正则 文学 时 ， Pai 292 KNARE MZF. MERELE Bn Sh NS 
符 ，/c 和 /g， 下 面 马 上 介 

使 用 regex 对 象 

正则 运算 元 也 可 以 是 qr/.../ 生 成 的 regex 对 象 ， 例 如 : 


my $regex = gr/regex/; 








if (Sbext =~ $regex) { 
可 以 在 my.../ 中 使 用 regex 对 象 。 特 殊 的 情况 是 ， 如 果 “ 正 则 文字 ”中 只 包含 一 个 regex 对 象 的 插值 ， 那 么 
它 束 完全 等 同 于 使 用 此 regex 对 象 。 上 面 这 个 例子 也 可 以 写作 : 
if ($text =~ m/Sregex/) { 


这 很 方便 ， 因 为 它 看 起 来 更 熟悉 ， 也 容 主 我 们 对 regex 对 象 使 用 /g 修 饰 符 〈 还 可 以 使 用 m/.../ 文 持 的 其 他 
的 修饰 从 ， 但 这 在 本 例 中 没有 音义 ， 因为 EAT A BEE thiregex ®t RAY BE WAR SUE UB TT = 304) 。 
默认 的 正则 表达 式 


如 果 没 有 指定 正则 表达 式 ， 例 如 m// (或 者 m/$ 变量 $So 为 空 字 符 未 定义 ) , Il 
e 由 RT Titania ten epi 0 








效率 ， 后 来 因为 regex 对 象 的 发 展 (S303) ， 已 经 没什么 意义 了 。 

? .…..? 的 特殊 匹配 

除了 之 前 介绍 的 正则 文字 的 各 种 分 隔 符 ，match 运 算 符 还 可 以 使 用 一 种 特殊 的 分 隔 符 问号 。 问 号 分 
阳 符 (例如 m? ...? ) 提供 的 是 相当 生僻 的 功能 ，m? ...? 匹配 成 功 之 后 ， 除 非 在 同样 的 package 中 调用 
reset 国 数 ， 否 则 不 会 再 次 匹配 。 按 照 Perl Version 1 的 手册 上 的 说 法 ， 这 “是 有 用 的 优化 措施 ， 用 于 在 一 组 文 
件 中 查找 菜 段 信息 的 第 一 次 出 现 ”， 但 是 不 知 何故 ， 我 在 现代 Perl 中 从 未 见 过 。 

问 亏 分 隔 符 的 特殊 情况 类 似 矢 线 分 隔 符 ， 匡 也 不 是 必须 出 现 的 : ? ...? 完全 等 价 于 m? ...? 。 








指定 目标 运算 元 
Specifying the Match Target Operand 
mS FRB Ee FRA TER EH ~, MO $text=~m/.../0 WIE, =~BER MER, te AZ 
比较 运算 符 ， 只 是 一 个 看 来 有 趣 的 运算 符 ， 用 来 连接 运算 元 《〈 这 个 表示 法 改编 自 awk) 。 
因为 整个 “expr= 一 my/.../" 本 喘 吏 是 一 个 表达 去 ， 我 们 可 以 在 任何 容许 出 现 表 达 陈 的 地 方 使 用 ， 例 如 
《以 连 线 分 隔 ) : 
$text =~ m/…/; # 这 样 做 ， 大概 是 从 伴随 效应 考虑 的 
if (Stext =~ m/::/) 4 
# ”如果 匹配 成 功 ， 执 行 这 些 代码 





Sresult = ( Stext == m// Je # 把 Sresult 置 为 Stext 的 匹配 结果 


Sresult = $text =~ m/…/ ; # 同上 =~ 的 优先 级 高 于 = 
Scopy = Stext; # 把 Stext BN ZlScopy... 
Scopy =~ m/-:/; # a:a f&Scopy 上 匹配 
( $copy = $text ) =~ m/::/; # 同上 

默认 的 目标 字符 串 


如 采 目 标 字符 串 是 变量 $_ ， 则 可 以 省 略 整 个 “$_= 一 ”。 也 束 是 说 ， 默 认 的 目标 字符 串 惑 是 $_。 
$text=~m/regex/; 
的 意思 是 ,，“ 把 regex 应 用 到 $text 中 的 文本 ， 和 忽略 返回 值 ， 获 取 伴 随 效应 ”*。 如 采 和 起 了 写 '~~”"， 结 来 束 
JE: 
$text=m/regex/; 
它 的 意思 是 “对 $_ 中 的 文本 应 用 正则 表达 式 ， 获 取 伴 随 效应 ， 把 返回 的 true/false (EINS $text”. EzE 
说 ， 下 面 两 者 是 等 价 的 : 

















$text = m/regex/; 
Stext ($ =~ m/regex/) ; 


AIREAN H mT ERTE, Oe SE A) OE BA RUE) 结合 时 。 
FERRIS DAR Fe M: 


0 O UO U Linux] [|] www.linuxidc.com |] [] 


F elsif (m; =} { 
ARW, MKAN S IR Tc Zt i REP R AER HE FE o 
颠倒 match 的 意义 
可 以 用 ! 一 来 取代 = 一 ， 对 返回 值 进行 逸 辑 非 操 作 “〈 马 上 会 介绍 这 么 做 的 返回 值 和 伴随 效应 ， 但 是 对 
于 ! 一 ， 返 回 值 束 是 true 或 者 false) ， 和 下面 三 种 办 法 是 等 价 的 : 
if ($text !~ m/:…/) 
if (not $text =~ m/:::/) 
unless ($text =~ m/:::/) 
从 我 个 人 出 有 发， 我 喜欢 中 间 的 办 法 。 无 论 选 用 哪 种 办 法 ， 都 会 产生 设置 $1 等 的 伴随 效应 。! 一 只 是 判 
洁 “如 果 不 能 匹配 ”的 人 简便 方式 。 











Match 运 算 和 从 的 不 同 用 途 


Different Uses of the Match Operator 

可 以 从 match 运 算 和 从 返回 的 true/false 判 断 逻 配 是 否 成 功 ， 也 可 以 从 成 功 匹 配 中 获取 其 他 的 信息 ， 与 其 他 
match 运 算 符 结合 起 来 。match 运 算 符 的 行为 主要 取 雇 于 它 的 应 用 场合 〈 嗓 294) ， 以 及 是 否 使 用 了 /lg 修饰 
符 。 

普通 的 “匹配 与 谷 ” scalar context， 不 使 用 /g 

在 scalar context 中 《例如 if 测 试 ) ，match 运 算 从 返回 的 束 是 true/false: 


if ($target =~ m/:::/) 1 











# 1... 匹配 成 功 后 的 操作 ... 
} else { 
# ... 匹配 失败 后 的 操作 ... 


} 
也 可 以 把 结 东 赋值 给 一 个 scalar 变 量 ， 然 后 检 和 碍 
my Ssuccess = $target =~ m/*……/; 


Li (Ssuccess) f 





普通 的 “从 字符 串 中 提取 数据 ?” list context， 不 使 用 /g 

不 使 用 /g 的 list context， 是 字符 串 中 提取 数据 的 妾 用 做 法 。 返 回 值 古 一 个 list， 每 个 元 系 是 正则 表达 式 中 
捕获 型 括号 内 的 表达 式 捕 获 的 内 容 。 下 面 这 个 简单 的 例子 用 来 从 69/8/31 中 提取 日 期 : 

my ($year, $month, $day) =$date=~m{^ (d+) / (\d+) / C\d+) $}x; 匹配 的 3 个 数 作为 3 个 变量 
(当然 还 包括 $1、$2 和 $3 等 ) 。 每 一 组 捕获 型 括 亏 都 对 应 到 返回 序列 中 的 一 个 元 际 ， 衬 序列 表示 匹配 失 
败 。 

有 时 候 ， 茶 组 捕获 括号 没有 参与 最 终 的 成 功 匹 配 。 例 如 ，m/ Cthis) | (that) /必然 有 一 组 括号 不 会 参与 
死 配 。 这 样 的 括号 返回 未 定义 的 值 undef。 如 末 匹 配 成 功 ， 又 没有 使 用 捕获 型 括号 ， 在 不 使 用 /g 的 list 
context 中 ， 会 返回 list (1) 。 


List context 可 以 以 各 种 方式 指定 ， agen ees eather ds Hin ueh: www.linuxidc.com [] [] 








my (@parts=$text=~m/(\d+)-(\d+)-(\d+)$/; 
如 果 match 的 接收 参数 是 scalar 变 量 ， 请 将 匹配 的 应 用 场合 指定 为 list context， 这 样 才 能 获得 匹配 的 荣 些 
捕获 内 容 ， 而 不 是 表示 匹配 成 功 与 个 的 Boolean 值 。 比 较 这 两 个 测评 : 
my (Sword) = $text =~ m/(\wt)/; 
my Ssuccess = $text =~ m/(\wt)/; 
第 一 个 例子 中 ， 变 量 外 的 括号 导致 my 图 数 为 赋值 指定 list ”context。 第 二 个 例子 没有 括 写 ， 所 以 应 用 场 
合 为 scalar context，$success 只 得 到 true/false 值 。 
下 和 面 给 出 了 一 个 更 人 简单 的 做 法 : 
if (my ($year, $month, $day) = $date =~ m{* (\d+) / (\d+) / (\d+) S}x) { 
# 如 果 能 够 匹配 ，S$year 等 变量 已 经 赋值 
} else { 
# ”如果 不 能 匹配 ... 
} 


这 次 匹配 及 生 在 list context 中 (由 “my C...) =R) ， 所 以 序列 中 的 变量 会 根据 对 应 的 $91、$2 之 类 进 
行 赋值 。 不 过 ，[ 匹 配 完成 之 后 ， 因 为 整个 组 合 是 在 if 条 件 语句 的 scalar context 中 ，Perl 把 list 转 换 为 一 个 scalar 
变量 。 它 接收 的 古 list 的 长 度 ， 如 来 匹配 不 成 功 ， 长 大 为 0， 如 果 不 为 0， 则 表示 匹配 成 功 。 

“提取 所 有 匹配 ” list context， 使 用 /g 

此 结构 的 用 处 在 于 ， 它 返回 一 个 文本 序列 ， 每 个 元 系 对 应 捕获 型 括 写 匹配 的 文本 (如 果 没 有 捕获 型 括 
号 ， 承 返回 整个 表达 却 匹 配 的 文本 ) ， 但 上 一 市 的 例子 只 能 针对 一 次 匹配 ， 而 这 种 结构 针对 所 有 匹配 。 

下 面 这 个 窗 单 的 例子 用 来 提取 字符 串 中 的 所 有 整数 : 

my@nums=$text=~m/\d+/g; 

如 果 $text 包 含 IP 地 址 ‘64.156.215.240;，@num 会 接收 4 个 元 聚 ，‘64?、‘156，、‘215”、“240’。 与 其 他 结构 
相 结 合 ， 就 能 很 方便 地 把 IP 地 址 转换 为 8 位 16 进 制 数 字 ， 例 如 “409cd7f0”， 如 果 需 要 创建 紧 竣 的 log 文 
件 ， 这 很 方便 : 

my $hex_ip=join",map {sprintf( " %02x " ,$_)} $ip=~m/\d+/g; 

下 面 的 代码 可 以 把 它 转 换 回 来 : 

my $ip=join'. ,map {hex($_)} $hex_ip=~m/../g 

Fx Fe VE TT A A: 

my@nums=$text=~m/\d+(?:\.\d+)?]\.\d+/g; 

e EREHE RARE, AARE RNAAR EIA AG AR RIA BA RA TB SA 
my@Tags=$Html=~m/<(\w+)/g; 

@Tags 会 保存 $Html 中 依次 出 现 的 各 个 tag， 这 里 假设 每 一 个 <=’ 都 有 对 应 的 ‘过’。 

PPE 了 多 个 捕获 型 括号 : 把 Unix 中 邮箱 联系 人 的 alias 文 件 的 内 容 存 放 在 一 个 字符 串 中 ， 数 

工 是 : 











Ne 





alias Jeff jfriedl@regex.info 
alias Perlbug perl5-porters@perl.org 
alias Prez president@whitehouse.gov 


为 了 提取 每 一 行 中 的 昵称 (alias) 和 完整 地 址 ， 我 们 可 以 使 用 m/Aalias\s+ (\S+) \s+ (.+) /m (不 使 
用 /g) 。 在 list context 中， 返回 的 序列 包括 两 个 元 素 ， 例 如 〈Jeff，'jfriedl@regex.info') 。 现 在 用 /g 匹 配 所 
有 这 样 的 组 合 ， 得 到 的 序列 是 : 
( 'Jeff', 'jfriedl@regex.info', 'Perlbug', 
'perl5-porters@perl.org', 'Prez', 'president@whitehouse.gov' ) 
如 果 这 个 序列 恰好 符合 key/value 的 形式 ， 我 们 可 以 直接 把 它 存 入 一 个 关联 数组 (associative array) 。 
my%alias=$text=~m/Aalias\s+(\S+)\s+(.+)/mg; 


返回 之 后 ， 可 以 用 $alias{Jef 访 问 Jeff 的 完整 地 图 | O O Linux] |] www.linuxidc.com |] [] 








迭代 [匹配 : Scalar Context， 使 用 /g 


Iterative Matching:Scalar Context,with/g 
scalar context 中 ，m/.../g 是 个 特殊 的 结构 。 和 正常 的 m/.../ 一 样 ， 它 只 进行 一 次 匹配 ， 但 是 和 list context 
中 的 m/.../g 一 样 ， 它 会 检查 之 前 逻 配 的 发 生 位 置 。 每 次 在 scalar context 中 使 用 mv.../g 一 一 例如 在 循环 中 ， 它 
会 寻找 “下 一 个 2 匹配。 如果 失败 ， 融 会 重 置 * 当 前 位 置 〈current position) ”， 于 是 下 一 次 应 用 从 字符 串 的 开 
RIF: 
这 里 有 个 徐 单 的 例子 : 
Stext = "WOW! This is a SILLY test."; 
etext =~ m/\b([a -z]+\b)/g; 
print "The first all-lowercase word: $1\n"; 
$text =~ m/\b([A-Z]+\b) /g; 
print "The subsequent all-uppercase word: $1\n"; 


A ARUME fEscalar context 中 使 用 /g 进 行 的 ， 结 果 为 : 
The first all-lowercase word: is 
The subsequent all-uppercase word: SILLY 
Ja PAVR DLAC AC AOR, WAE Sa ie PDL ACA) SRE) ZR, EO - Mi, E 
后 面 寻 找 大 写字 母 单 词 。 对 两 个 匹配 来 说 ，/g 都 是 必须 的 ， 这 样 匹 配 才 能 注意 到 “当前 位 置 >， 所 以 如 果 任 
何 一 个 没有 使 用 /g， 第 二 行 会 指 问 WOW’。 
scalar context 中 的 /g 匹 配 非常 适合 用 作 while 循 环 的 条 件 : 
while ($ConfigData =~ m/*(\wt)=(.*)/mg) { 
my(Skey, Svalue) = ($1, $2); 

















最 终 会 找到 所 有 的 匹配 ， 但 是 ”while 的 循环 体 是 在 匹配 之 间 《或 者 说 ， 在 每 次 匹配 之 后 ) 执行 。 一 旦 
某 次 匹配 失败 ， 结 末 融 是 false， 然 后 while 循 环 结束 。 同 样 ， 一 旦 失败 ，/g 状 态 会 重 置 ， 也 束 是 循环 结束 之 
后 的 /8 匹配 会 从 字符 各 的 开头 开始 。 

比较 : 





while ($text =~ m/(\d+)/) { # 很 危险 ! 
prink “founds 2 ya", 
} 
和 
while ($text =~ m/(\d+)/g) 1 
DEME Ta 61),n."; 
} 
唯一 的 区 别 是 /g， 但 是 这 区 别 不 可 小 视 。 如 果 $text 包 含 之 前 那个 JP 地址， 第 二 个 程序 输出 我 们 期 望 的 


结 
found: 64 
found: 156 
round: 213 
found: 240 


相反 ， 第 一 个 程序 不 断 地 打印 “found: 64”， 不 会 终止 。 不 使 用 /g， 就 意味 着 “找到 $text 中 第 一 个 
Cd+) | ”， 也 就 是 "64:， 无 论 匹 配 多 少 次 都 是 如 此 。 添 加 /g 之 后 ， 它 变 成 了 “找到 $text 中 的 下 一 个 
| Qd+) | ”， 依 次 找到 各 个 数字 。 


“当前 匹配 位 置 > 和 pos ©) ek Ax 
Perl 中 每 个 字符 串 都 有 对 应 的 “当前 匹配 位 置 〈khrlentl 中 aktdqh phaina) P) Aaanika dde re aaa AM | 


匹配 的 答 试 。 这 有 是 字 符 串 的 属性 之 一 ， 而 与 正则 表达 式 无 天 。 在 字符 串 创 建 或 者 修改 时 , “当前 匹配 位 
置 ? 会 指 同 字符 串 的 开头 ， 但 是 如 末 /g 匹 配 成 功 ， 它 怠 会 指 癌 本 次 匹配 的 结束 位 置 。 下 一 次 对 字符 串 应 用 /g 
本 
”， 例如: 
my Sip = "64.156.215.240"; 
while (Sip =~ m/(\d+)/g) { 
printf “found Sl ending at location gdin", pos (Sip) ; 








} 
结果 是 : 


found '64' ending at location 2 

found '156' ending at location 6 
found '215' ending at location 10 
found '240' ending at location 14 


( 记 住 ， 字 符 串 的 下 标 是 从 0 开始 的 ， 所 以 "location 2? 就 是 第 3 个 字符 之 前 的 位 置 ) 。 在 /g 匹 配 成 功 之 
后 ，$+[0]〈@+ 的 第 一 个 元 素 仿 302) 就 等 于 目标 字符 串 中 的 pos。 

pos () 函数 的 默认 参数 是 match 运 算 符 的 默认 参数 ， 变量 $ . 

预 设 定 字 符 串 的 pos 

pos ©) 的 真正 能 力 在 于 ， 我 们 可 以 通过 它 来 指定 正则 引擎 从 什么 位 置 开 始 匹 配 (当然 是 针对 /g 的 下 一 
次 匹配 ) 。 我 在 Yahoo! 的 时 候 ， 要 处 理 的 Web 服 务 右 log 文 件 的 格式 是 ， 包 含 32 字 节 的 定 长 数据 ， 然 后 是 
请 求 的 页 面 ， 然 后 是 其 他 信息 。 提 取 请 求 页 面 的 办 法 是 ^.{32}| ， 跳 过 开头 的 定 长 数据 : 


if (S$logline =~ m/*.{32}(\S+)/) { 
SRequestedPage = $1; 
} 
这 种 便 办 法 不 够 美观 ， 而 且 要 强迫 正则 引擎 处 理 前 32 个 学 。 如 本 我 们 对 目 动手 ， 人 代码 会 好 看 得 多 ， 
效率 也 向 得 多 : 
pos ($logline) = 32; # 请 求 页 的 信息 从 第 33 个 字符 开始 ... 
if (Slogline =~ m/(\S+)/g) { 
SRequestedPage = $1; 
} 
这 个 程序 好 些 ， 但 还 不 够 好 。 这 个 正则 表达 式 从 我 们 规定 的 位 置 开始 ， 而 在 此 之 前 不 需要 匹配 ， 这 一 
点 与 上 个 程序 不 同 。 如 果 因 为 菜 些 原因 ， 第 32 个 字符 不 能 AS | 匹配 ， 前 面 那个 程序 就 会 匹配 失败 ， 但 是 
狐 程 序 因 为 没有 销 定 到 字符 串 的 特殊 位 置 ， 会 由 传动 疙 置 局 动 驱 动 过 程 。 也 就 是 说 ， 它 会 错误 地 返回 一 个 
S+) 在 字符 串 后 面部 分 的 匹配 。 半 好 ， 在 下 一 节 我 们 会 看 到 ， 这 个 问题 很 容易 修复 。 
使 用 \G 
元 字符 \G 的 意思 是 “ 锚 定 到 上 一 次 匹配 结束 位 置 ?。 这 正 是 上 一 节 中 我 们 和 布 望 解雇 的 问题 。 
pos(Slogline) = 32; # 设 定 “ 当 前 位 置 ” 从 第 32 个 字符 开始 , 所 以 从 此 处 开始 匹配 . . . 
if ($logline =~ m/\G(\S+) /g) 
{ 








SRequestedPage = $1; 
} 


\G 告 诉 传动 装置 ，“ 不 要 启动 驱动 过 程 ， 如 果 在 此 处 匹配 不 能 成 功 ， 就 报告 失败 ”。 

前 面 几 章 曾经 介绍 过 NG): 第 3 章 有 简单 介绍 (=130) ， 更 复杂 的 例子 在 第 5 章 (212) 。 

请 注意 ， 在 Pen 中 ， 只 有 NG), 出 现在 正则 表达 式 开头 ， 而 且 没 有 全 局 性 多 选 结构 的 情况 下 ， 结 果 才 是 
可 预测 的 。 第 6 章 的 优化 CSV 解析 程序 的 例子 中 (S271)〉， 正 则 表达 式 以 [NG C? ; Ap ) ...| 开头 。 如 
果 更 严格 的 1^| 能 够 匹配 ， 就 没 必要 检查 NG, ukib knh ?www,linuxidc 不 qnw[ L 





和 是， 在 Perl 中 这 样 行 不 通 ; 其 结 采 不 可 预测 〈 注 7) 。 

使 用 /gc 进行 “Tag-team>” 匹 配 

正 钊 情况 下 ，my/.../g 匹 配 失 败 会 把 目标 字符 串 的 pos 重 置 到 字符 串 的 开头 ， 但 给 /g 添 加 /c 之 后 会 造成 一 
种 特殊 的 效果 : 匹配 失败 不 会 重 置 目标 字符 串 的 pos 〈/c 离 不 开 /g， 所 以 我 一 役 使 用 /gc) 。 

m/.../gc 最 常见 的 用 法 是 与 \G| 一 起 ， 创 建 * 词 法 分 析 器 ”， 把 字符 串 解 析 为 各 个 记号 (token) 。 下 例 
简要 说 明了 如 何 解 析 $html 中 的 HTML 代 码 : 


while (not $html =~ m/\G\z/gc) # 在 全 部 检查 完 之 前 ... 
{ 








LE (Shtml =~ m/\G( <[*%>]4+> )/xgc) { print "TAG: $1\n" } 
elsif ($html =~ m/\G( &\wt; /wge} { print "NAMED ENTITY: $1\n” } 
elsif ($html =~ m/\G( &\#\dt; )/xgc) { print "NUMERIC ENTITY: $1\n"} 
elsif (Shtml =~ m/\G( [*<>&\n]+)/xgc) { print "TEXT: $1\n" } 
elsif (Shtml =~ m/\G \n /xgc) { print "NEWLINE\n" } 
elsif (Shtml =~ m/\G( )/xge) { print “ILLEGAL CHAR: $1\n™" } 


else { 
die "SO: oops, this shouldn't happen!"; 
} 
} 

每 个 正则 表达 式 的 粗 体 部 分 匹配 一 种 类 型 的 HTML 结 构 。 从 当前 位 置 开 始 ， 依 次 检查 每 一 个 正则 表达 
式 〈 使 用 /gc) ,但 是 只 能 在 当前 位 置 尝试 匹配 (因为 使 用 了 AG) 。 按 照 顺 序 依 次 检查 各 个 正则 表达 
式 ， 直 到 找到 能 够 匹配 的 结构 为 上 然后 报告 。 之 后 把 $html 的 pos 指 向 下 一 个 记号 的 开始 ， 进 入 下 一 轮 循 
IPH FER © 

循环 终止 的 条 件 是 mAGvz/gc 能 够 匹配 ， 即 当前 位 置 〈 TAG| ) 指向 字符 串 的 未 尾 zj ) 。 

有 一 点 要 注意 ， 每 轮 循环 必须 有 一 个 还 配 。 否 则 (而 且 我 们 不 希望 退出 〉 束 会 进入 无 穷人 循环 ， 因 为 
$html 的 ”pos 既 不 会 变化 也 不 会 重 置 。 对 现在 的 程序 来 说 ， 最 终 的 else 分 文 永 远 不 会 调用 ， 但 是 如 果 我 们 和布 
望 修 改 这 个 程序 〈 马 上 残 会 这 么 做 ) ， 或 许 会 引入 错误 ， 所 以 else 分 文 是 有 必要 体 留 的 。 对 目前 这 个 程序 
来 说 ， 如 果 接 收 预 料 之 外 的 数据 (例如 ‘二 二 ’*) ， 会 在 每 次 遇 到 预料 之 外 的 字符 时 ， 束 及 出 一 条 次 报 。 

另 一 点 需要 注意 的 是 各 表达 式 的 检查 顺序 ， 例 如 把 \G OO | 作为 最 后 的 检查 。 也 可 以 来 看 下 面 这 个 
WRG <script> (REAT: 

$html=~mAG (<script[A>] * >.* ?</script>)/xgcsi 

哇 ， 这 里 使 用 了 5 个 修饰 符 ! 为 了 正常 运行 ， 我 们 必须 把 它 放 在 对 字符 串 进行 第 一 次 [<A> >) 的 
匹配 之 前 。 和 否则 天 [A>]+> | 会 匹配 开头 的 生 script> 标 签 ， 这 个 表达 式 就 没 法 运行 了 。 

第 3 章 还 介绍 了 关于 /gc 的 更 局 级 的 例子 (人 132) 。 

Pos 相 天 问题 总 结 

下 面 古 match 运 算 和 从 与 日 标 字 符 串 的 pos 之 则 互相 作用 的 总 结 : 


匹配 类 型 匹配 成 功 时 的 pop 值 匹配 失败 时 的 pop 设 定 


m/+++/ 字符 串 起 始 位 置 (忽略 pos) | 重 置 为 undef 重 置 为 undef 











m/…/g “| 字符 囊 的 pos 位置 。 | 匹配 结束 位 置 的 偏 移 值 | 重 置 为 undef 
m/…/gc ”| 字符 囊 的 pos 位置 。 ”| 匹配 结束 位 置 的 偏 移 值 “| 不 变 
同样 ， 只 要 修改 了 字符 串 ，pos 就 会 重 置 为 undef (也 就 是 初始 值 ， 指 向 字符 串 的 起 始 位 置 ) 。 
Match 运 算 符 与 环境 的 关系 








The Match Operator's Environmental Relations 
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match 运 算 符 的 伴随 效应 

通 音 ， 成 功 匹 配 的 伴随 效应 比 返 回 值 更 重要 。 事 实 上 ， 在 void context 中 使 用 match 运 算 符 〈 这 样 甚 至 不 
ee 
Ms 

e 几 配 之 后 会 设置 $1 和 @+ 之 类 变量 ， 供 当前 语法 块 内 其 他 代码 使 用 (号 299) 。 

e 设 置 默 认 正 则 表达 式 ， 供 当前 语法 块 内 其 他 代码 使 用 C= 308) 。 

efiiikm? ...? 能 够 风 配 ， 它 《也 就 是 m? ...? WA) 会 被 标记 为 无 法 继续 匹配 ， 至 少 在 同样 的 
package 中 ， 不 调用 reset 吏 无 法 继续 匹配 (号 308) 。 

当然 ， 这 些 伴 随 效 应 只 能 在 匹配 成 功 时 有 发生， 不 成 功 的 匹配 不 会 影响 它们 。 相 反 ， 下 面 的 伴随 效应 在 
任何 匹配 中 都 会 发 生 : 

e 日 标 字 符 串 的 pos 会 指定 或 者 曾 置 (二 313) 。 

e 如 果 使 用 了 /o， 正 则 表达 式 会 与 这 个 运算 符 “ 融 为 一 体 〈fuse) ”， 不 会 重新 求 值 Cevaluate, = 
352) . 

match 运 算 和 从 的 外 部 影响 

match 运 算 符 的 行为 会 受到 运算 元 和 修饰 符 的 影响 。 下 面 总 结 了 影响 match 运 算 符 的 外 部 因 紊 : 


应 用 场合 context 
match 运 算 符 的 应 用 场合 〈scalar、1list， 或 者 void) 对 匹配 的 进行 、 返 回 值 和 伴随 效应 有 重要 影 啊 。 
pos(...) 


目标 字符 串 的 pos《 由 前 一 次 匹配 旺 陈 或 隐 陈 设 定 ) 表示 下 一 次 /g 匹 配 应 该 开始 的 位 置 ， 同 时 也 是 
AG) 匹配 的 位 置 。 


默认 表达 式 
如 琳 提 供 的 正则 表达 式 为 守 ， 束 使 用 默认 的 表达 式 (号 308) 。 
study 


对 匹配 的 内 容 或 返回 值 没 有 任何 影响 ， 但 如 果 对 目标 字符 串 调用 此 函数 ， 匹 配 所 花 的 时 间 更 少 〈 也 可 
能 更 多 ) o Boe “StudyR RM’ (S359) 。 

m? ...? 和 reset 

m? ...? 运算 符 有 一 个 看 不 见 的 “已 /未 匹配 ”状态 ， 在 使 用 m? ...? 匹配 或 者 reset 时 设 定 C= 308) 。 

在 context 中 思考 (不 要 态 记 context) 

在 match 运 算 从 讲解 结束 之 前 ， 我 要 提 几 个 问题 。 尤 其 是 ， 在 while、f 和 foreach 控 制 结 构 中 发 生变 化 
时 ， 确 实 需 要 保持 头脑 清醒 。 请 问 ， 运 行 下 面 的 程序 会 得 到 什么 结果 ? 


while ("Larry Curly Moe" =~ m/\wt/g) { 
print "WHILE stooge is $&.\n"; 





} 


1 


if ("Larry Curly Moe" =~ m/\wt/g) { 
print "IF stooge is $&.\n"; 
} 


Dine yas 


foreach ("Larry Curly Moe" =~ m/\wt/g) { 
print "FOREACH stooge is $&.\n"; 
} 
这 有 点 儿 难 度 ， itl FRAG. 


[| 日 Linux[| [|] www.linuxidc.com |] [] 
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The Substitution Operator 

PerlHJsubstitutionia 4 f¥s/.../.../ MERE ILAE, aes SR VOB CF. WA le: 

$text=~s/regex/replacement/modifiers 

简单 来 说 ，regex 匹配 的 文本 会 蔡 换 为 replacement 的 值 。 如 果 使 用 了 /g， 这 个 正则 表达 式 会 重复 应 用 
到 文本 中 进行 匹配 ， 每 次 匹配 的 内 容 都 会 被 奉 换 。 

与 match 操作 一 样 ， 如 采 目 标 字 符 串 在 变量 $ 中 ， 目 标 运算 元 和 = 一 都 不 是 必须 的 。match 运 算 符 可 以 
省 略 m， 而 substitution 不 能 省 略 s。 

我 们 已 经 看 到 ，match 运 算 符 是 非常 复杂 的 一 一 它 的 工作 原理 ， 和 所 的 返回 值 ， 都 取 次 于 它 所 在 的 应 用 场 
合 ， 目 标 字符 串 的 pos， 以 及 使 用 的 修饰 符 。 相 反 ，substitution 运 算 符 很 简单 : 它 返 回 的 信息 是 不 变 的 〈 表 
示 蔡 换 的 识 数 ) ， 影 响 它 的 修饰 符 也 很 好 理解 。 

你 可 以 使 用 第 292 页 介绍 的 所 有 核心 修饰 符 ， 但 是 substituion 运 算 符 还 支持 另外 两 个 修饰 符 ，/g， 以 及 
马上 将 要 介绍 的 /e。 








运算 元 replacement 


The Replacement Operand 

fe Ms/.../.../ P, replacement Ark fEregex2 Ja; my/.../ 使 用 两 个 分 隔 符 ， 而 这 里 要 使 用 3 个 。 如 果 正 则 
表达 式 使 用 对 称 的 分 隔 符 〈 例 如 过 ... > ) ， 则 replacement 有 自己 的 一 对 分 隔 符 (这 样 总 共 就 有 4 个 分 隔 
IF) 。 举 例 来 计 ，s{...}{...} 和 s[...]/.../ 和 s 达 .之 '...' 都 是 合法 的 。 这 种 情况 下 ， 两 对 分 隔 符 可 以 用 空白 字 
人 分隔， 如 果 使 用 了 空 日 学 从 ， 还 可 以 添加 注释 。 对 称 的 分 隔 从 通常 在 /x 或 /e 中 使 用 。 

Stext =~ st 

. . .复杂 的 表达 式 ， 大 量 的 注释 ， 以 及 . . . 
} { 


.对 一 段 Perl 代码 求 值 ， 把 结果 作为 replacement... 
}ex; 

请 注意 区 分 regex 和 replacement。regex 会 按照 正则 表达 式 的 方式 来 解 机 ， 有 目 己 的 分 隔 符 C2291) 。 
replacement ” 则 会 当 作 普通 的 双 引 号 字符 串 来 解析 和 求 什 (evaluate〉。 求 值 会 在 思 配 之 后 进行 (“如果 使 用 
了 /g， 每 次 匹配 之 后 都 会 求 值 ) ， 所 以 $1 之 类 的 变量 能 够 指 问 对 应 的 匹配 内 容 。 

在 下 面 两 种 情况 下 ，replacement 丰 会 按照 双 引 写字 符 串 来 解析 : 

ereplacement 的 分 隅 从 是 单 引 号 ， 此 时 作为 单 引 号 字符 串 ， 不 会 进行 变量 插值 。 

e 使 用 了 /e 修 饰 从 (下 一 节 讨 论 ) ，replacement 会 作为 一 小 段 Perl 代 码 而 不 是 双 引 号 字符 串 。 这 一 人 小段 
Perl 代 人 码 会 在 每 次 匹配 之 后 执行 ， 结 末 作 为 replacement。 
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The/e Modifier 

/e 修 饰 从 会 把 replacement 作 为 一 段 Perl 代 人 码 来 进行 求 值 ， 这 就 类 似 eval{..….}。 代 人 码 闭 载 时 ， 育 完 会 检 桔 
这 段 代 人 码 的 语法 ， 确 你 没有 错误 ， 但 是 每 次 罗 配 之 后 都 会 对 代码 重新 求 值 。 每 次 风 配 之 后 ，replacement 都 
会 在 scalar context 中 重新 求 值 ， 结 果 作 为 replacement。 下 面 有 个 和 窗 单 的 例子 : 

$text=~s/-time-/localtime/ge; 

在 scalar ”context 中 ， 它 会 用 Perl 的 localtime 函 数 的 结果 (也 束 是 返回 表示 当前 时 间 的 文本 ， 例 如 “Mon 
Sep 25 18: 36: 512006”) 替换 -time-| 。 

因为 求 值 是 每 次 匹配 之 后 进行 的 ， 我 们 可 以 通过 $1 等 变量 引用 匹配 的 内 容 。 例 如 ，UREL 中 不 容许 出 现 
的 特殊 字符 ， 可 以 编码 为 百 分 写 “%” 加 两 位 十 六 进 制 数 的 形式 。 为 了 编码 所 有 这 种 字符 ， 可 以 这 样 : 


[| 日 日 Linux[| [| www.linuxidc.com [] [] 








测验 答对 


o 318 页 测验 的 答案 


318 页 代码 的 结果 : 
WHILE stooge is Larry. 
WHILE stooge is Curly. 
WHILE stooge is Moe. 


IF stooge is Larry. 


FOREACH stooge is Moe. 

FOREACH stooge 1s Moe. 

FOREACH stooge is Moe. 
请 注意 ， 如 果 foreach 循环 中 的 print 引用 了 S$ 而 不 是 $S&， 结 果 就 会 与 while 的 一 
样 。 在 这 个 foreach 中 ，m/…/g 近 回 的 ('Larry!，'Curly'，'Moe') 并 没有 使 用 。 
相反 倒是 使 用 了 伴随 效应 中 的 S&， 这 表示 程序 有 错误 ， 因 为 list context 的 伴随 效应 ， 
miei ARR Me 





$url=~s/([Aa-zA-Z0-9])/sprintf('%%%02x',ord($1))/ge; 

下 面 的 程序 可 以 用 来 解码 : 

$url=~s/%([0-9a-f][0-9a-f])/pack('" C " ,hex($1))/ige; 

fa) ASHE, sprintf ('%%%02x', ord (character) ) 把 字符 转换 为 对 应 的 URL 编码 ， 而 pack "C", 
value) 的 作用 相反 ， 请 参考 你 第 用 的 Per 文档 获取 更 多 信息 。 

多 次 使 用 /e 

通 第 情况 下 ， 对 单个 运算 从 多 次 使 用 同一 修饰 从 没有 特殊 音义 “只 有 让 读者 更 团 惑 ) ， 但 是 重复 /e 修 
饰 符 却 会 改变 replacement 的 替换 过 程 。 正 常情 况 下 ，replacement 会 进行 一 次 求 值 ， 但 是 如 果 “e' 的 数目 多 于 1 
个 ， 则 Perl 叉 会 对 求 值 的 结果 进行 求 值 ， 如 此 一 直 进 行 下 去 ， 求 值 的 次 数 与 ‘@’ 的 数目 一 样 多 。 或 许 它 的 主 
要 价值 是 用 作 比 较 Perl 代 码 复杂 性 的 测试 。 

不 过 此 功能 并 非 完全 无 用 。 如 果 需 要 手动 进行 变量 插值 (例如 从 配置 文件 读 入 字符 串 ) 。 也 就 是 说 ， 
有 一 个 字符 串 “...$var...”， 我 们 希望 把 ‘$var’ 瞪 换 为 $var 的 值 。 

简 持 的 办 法 是 : 

$data=~s/(\$[a-zA-Z_]\w x )/$1/eeg; 

MRAM EA /e, Ves Se PRUL Svr A, RTA. TEA —Ne, 22 xtS1 BUSTA, ff ‘Svar’, 
这 样 也 没什么 意义 ， 同 样 是 用 匹配 的 文本 蔡 换 自身 。 但 是 如 果 使 用 两 个 /e， 则 ‘$var’ 会 重新 求 值 ， 得 到 内 
容 ， 这 样 束 模拟 了 变量 插值 。 


应 用 场合 与 返回 值 


Context and Return Value 
根据 context 和 /g 的 不 同 组 合 ，match 运 算 符 会 返回 不 同 的 值 。 不 过 ，substitution 运 算 符 没有 这 人 么 复杂 
一 一 它 返 回 的 要 么 是 痊 换 有 友 生 的 次 数 ， 要 么 是 空 字符 串 ， 表 示 没 有 发 生 任何 答 换 。 
为 使 用 方便 ， 人 返回 值 为 Boolean 时 例如 在 if 条 件 语句 中 ) ， 只 要 发 生 了 蔡 换 ， 返 回 值 就 为 tue，false 表 
ANTS LE FF HR 
0 O UO U Linux] [|] www.linuxidce.com |] [] 


Split 运 算 符 
The Split Operator 
功能 多 样 的 Split 运 算 符 《在 不 那么 严格 的 时 候 ， 人 们 通 利 称 其 为 图 数 ) 第 被 视 为 list context 中 m/.../g 
C2311) 的 对 立 物 。 后 者 返回 表达 式 匹 配 的 文本 ， 而 split 返 回 由 表达 式 匹 配 的 文本 分 隔 的 文本 。 把 $text= 
~m/: /g 悄 用 到 'TO.SYS: 225558: 95-10-03: -a-sh: optional’, ik PIAA hlist: 
(oo) 
这 似乎 没什么 用 ， 但 是 split (/: / $text) 返回 5 个 元 素 的 list: 
(‘1O.SYS','225558','95-10-03','-a-sh', optional’) 
两 个 例子 都 告诉 我 们 ，“: | 匹配 了 4 次 。 使 用 split， 这 4 次 匹配 把 目标 字符 串 的 副本 分 隔 为 5 段 ， 返 回 
包含 5 个 字符 串 的 list。 
这 个 例子 只 用 单个 字符 分 隔 目标 字符 串 ， 其 实 我 们 可 以 使 用 任何 正则 表达 却 : 
@Paragraphs=split(m/s * <p>\s * /i,$html); 
ERE <p> he <P> (MARATA) 把 $html 中 的 HIML 代 码 分 隔 开 来 。 你 甚 全 可 以 按 位 
置 分 隔 : 
@Lines=split(m///m, $lines); 
把 字符 串 按 行 切 分 。 
对 最 简单 形式 的 数据 来 说 ，split 非 常 有 用 也 很 容易 理解 。 不 过 ， 因 为 存在 许多 参数 、 特 殊 情 况 和 特殊 
情形 ， 事 情 会 变 得 复 保 。 在 深入 这 些 细节 之 前 ， 先 给 出 两 个 特别 有 用 的 例子 : 
eA match 运算 从/， 会 把 目标 字符 串 切 分 为 单个 字符 ， 也 就 是 说 ，split (//, "short test" ) 得 到 








10 Nm Hist: C"s", "h", "o", sms "Ss", "t") © 
ee 特殊 的 match 运算 符 "." 【包含 单个 空格 的 普通 字符 串 〉 把 目标 字符 串 控 照 罕 日 字符 切 分 ， 等 于 使 
用 mAs+/， 只 是 会 忽略 开头 和 结尾 的 空 晶 字符。 这 样 ，split(" ." ，" …ashort…test…" ) 得 到 三 个 字符 


FA: ‘a’, ‘short’ All ‘test’. 


稍 后 讨论 各 种 特殊 情况 ， 我 们 先 来 看 基础 的 部 分 。 
Split 基 础 知识 


Basic Split 
splite FAT AR RA, CRITE: 
split(match operand,target string,chunk-limit operand) 
FR SEAN, APES Rte KE ARR CAA aie) 。 
split 总 是 在 list context 中 使 用 ， 和 常用 的 模式 包括 : 
(Svearl, = Pleg) = 


for my Sitem (split(:::)) { 


} 

match 运 算 元 

运算 元 match 有 几 种 特殊 情况 ， 不 过 它 通常 等 价 于 match 操 作 中 的 ”regex 运 算 元 。 也 就 是 说 ， 你 可 以 使 
用 /.../ 和 mt{...} 之 类 的 形式 ， 它 可 以 是 regex 对 象 ， 或 者 任何 能 够 求 值 为 字符 串 的 表达 式 。 它 只 文 持 第 292 页 
介绍 的 核心 修饰 符 。 

如 果 继 续 要 用 括号 来 分 组 ， 请 务必 使 用 非 捕获 型 括号 ”(?: .…) | 。 我 们 稍 后 将 会 看 到 ， 在 split 中 使 
用 捕获 型 括号 会 触发 极 特 殊 的 功能 。 | oe 

target string 运 算 元 0 O O O Linuxi] [|] www.linuxidc.com [] [C 





target string 只 用 于 检测 ， 绝 不 会 航 修 改 。 如 条 没 有 设 定 ， 默 认 使 用 $_。 

chunk-limit 运 算 元 

chunk-limit 运算 元 的 主要 功能 是 设 定 split 切 分 字符 串 的 数目 上 限 。 对 上 面 的 例子 中 同样 的 目标 字符 串 
调用 split (/: /, $text, 3) 得 到 : 

(‘1O.SYS','225558','95-10-03:-a-sh:optional') 

这 告诉 我 们 ，/: /匹配 两 次 之 后 Split 会 终止 ， 产 生 所 需 的 3 段 。 它 可 能 可 以 匹配 更 多 的 次 数 ， 但 这 里 不 
需要 ， 因 为 存在 段 的 数 日 限制 。 设 定 的 数 日 将 作为 上 限 ， 所 以 最 多 只 能 返回 规定 数目 的 元 素 〈 除 非 正 则 表 
达 式 包含 捕获 型 括号 ， 后 文 会 论 及 ) 。 得 到 的 元 素数 目 可 能 少 于 上 限 ， 如 有 得 到 的 分 段 少 于 规定 的 数目 ， 


也 不 会 有 多 祭 的 内 容 来 < 填充 *。 对 于 示例 所 用 的 数据 ，sSP1it(/ :1 Stext, 99) 返回 的 list 只 有 5 个 


元 素 。 不 过 ，split (/: /，Stext) 和 SPlit (/:/ "Stext， 吕 3) 有 重要 的 区 别 ， 这 里 暂时 还 看 不 出 来 
请 记 住 这 一 点 ， 稍 后 我 们 会 仔细 讲解 。 
记 住 ，chunk-limit 运 算 元 指向 的 是 各 匹配 之 间 的 分 段 ， 而 不 是 匹配 的 数目 本 身 。 否 则 ， 前 面 那个 上 限 
为 3 的 例子 就 应 该 得 到 这 个 : 

(‘1O.SYS','225558','95-10-03','-a-sh: optional’) 

这 不 是 程序 运行 的 结果 。 

这 里 谈 谈 效率 : 假设 只 希望 取 开头 的 几 个 元 素 ， 例 如 : 

($filename, $size, $date)=split(/:/, $text); 
为 了 提高 效率 在 需要 的 元 素 赋值 之 后 ，Perl 会 停止 split 操 作 。 它 会 自动 把 chunk-limit 设 置 为 list 的 元 
系 个 效 +1。 

ix A split 

从 我 们 接触 过 的 例子 来 看 ，split 很 容易 使 用 ， 但 有 三 个 特殊 的 问题 增加 了 它 实践 起 来 的 复杂 程度 : 

ek Al ICR 

e 特 殊 的 regex 运 算 符 。 

e 包 含 捕获 型 括号 的 regex。 

下 面 分 别 讨论 。 

















BHEIR 


Returning Empty Elements 

split A fek [el AALER, BARR, BELETTE KEKA 
串 ， 例 如 "”" ) ， 比 如 : 

@nums = split(m/:/, O12 ps4 TIM 

CRH: 

("12","34"," ","78") 

正则 表达 式 “: | 匹配 了 3 次 ， 所 以 应 当 返 回 4 个 元 素 。 第 3 个 元 素 为 空 ， 表 示 正 则 表达 式 在 一 行 中 匹配 
TAR, “EM ZINA MA 

AEREA 

OUP, ZARA CAA Kel, Puh: 

enma = SpLLE(m/i¢, "LS: 84s s7B rte") 2 
U UU Ud 


同样 会 返回 4 个 元 素 : 
("12","34"," " "78" )/ 
即使 这 个 正则 表达 式 在 字符 串 的 末尾 能 逻 配 更 多 的 人 次数， 结果 也 没有 变化 。 在 默认 情况 下 ，split 不 会 
返回 list 末 尾 的 空 元 系 。 不 过 ， 我 们 可 以 通过 设 定 chunk-limit 运 算 元 ， 让 split 返 回 所 有 的 末尾 元 系 。 
chunk-limit 运 算 元 的 次 要 职能 
chunk-limit 的 主要 用 途 是 设 定 分 段 数目 的 上 限 ,， 1 pane TOWN La IMME ALG FILA 
Cehunlclimit 设 置 为 零 等 价 于 不 设置 cuunlclimio . AAA ER UKE NEN AUXE eoe [] 








末尾 的 空 元 素 ， 只 需要 设置 一 个 非 第 大 的 限制 即 可 。 或 者 更 好 的 办 法 是 ， 设 置 为 -1， 因 为 chunk-limit 为 负数 
表示 一 个 足够 大 的 上 限 : split (/: /, $text, -1) 会 返回 所 有 的 元 素 ， 包 括 末 尾 的 空 元 素 。 

另 一 个 极 疹 是 ， 如 果 你 不 硕 望 保留 任何 空 元 素 ， 可 以 在 split 之 前 使 用 grep{length}。 使 用 grep 之 后 ， 只 
会 返回 长 度 不 为 0 的 元 素 《〈 也 就 是 说 ， 非 空 元 素 ) 。 

my@NonEmpty=grep {length} split(/:/,$text); 

字符 串 末 尾 的 特殊 匹配 

在 字符 串 开 头 的 匹配 会 产生 一 个 空 元 素 : 

@nums = split(m/:/, ole Sa ee 70") 





@num 的 值 为 : 

(" 12 OA g " "78" )/ 

Fras 22 JCA EA, TEV eA SUEZ AT BFP SR ee LB. MEEA Ak, OR EMI RIA TRA 
匹配 任何 文本 ， 如 果 它 在 字符 串 的 开头 或 者 结尾 匹配 ， 那 么 开头 和 /或 结尾 的 空 元 素 将 不 会 生成 。 来 看 个 简 
单 的 例子 ，split (Ab/, "a simple test") ， 它 能 够 匹配 其 中 的 6 个 位 置 ata SAMPLE ESSE, 即使 
它 能 匹配 6 次 ， 也 不 会 返回 7 个 元 素 ， 而 是 5 个 元 素 : ("a"，".:"，,，"simple",，".:"，"test")。 其 
实 ， 这 种 特殊 情况 我 们 已 经 见 过 ， 即 第 321 页 的 @Lines=split (m///m, $lines) 。 











Split 中 的 特殊 Regex 运 算 元 


Split's Special Regex Operands 
split 的 match 运 算 元 通 第 瓯 是 正则 文字 或 者 regex 对 象 ， 这 与 match 运 算 符 的 情况 一 样 ， 不 过 也 有 例外 : 
eregex 为 空 有 的 意思 不 是 “使 用 当前 的 默认 正则 表达 式 *”， 而 是 把 目标 字符 串 分 割 为 字符 。 在 刚 开 始 讨 论 
split 的 时 候 我 们 见 过 这 个 例子 ，split (/, "short test" ) 返回 10 个 元 素 的 list: (C"s", "h", "o", 
.. gy ME") a 

e 如 条 match 运 算 元 是 由 单个 空格 构成 的 字符 串 《〈 而 不 是 正则 表达 式 ) ， 则 是 男 一 种 特殊 情况 。 它 基本 
等 同 与 As+t/， 只 是 会 忽略 开头 的 衬 日 字符。 这 主要 是 为 了 模拟 awk 对 输入 进行 的 默认 的 输入 -记录 -分 陋 
(input-record-separator) 操作 ， 尽 管 对 普通 情况 来 说 它 也 很 有 用 。 

如 果 希 望 保 留 开 头 的 空白 字符 ， 可 以 直接 使 用 mAs+/。 如 果 和 希望 保留 末尾 的 空白 字符 ， 只 需要 把 chunk- 
limit 设 秆 为 -1。 

e 如 果 没 有 设置 regex 运 算 元 ， 则 默认 使 用 一 个 空格 从 “上面 提 到 的 特殊 情况 ) 。 这 样 ， 不 市 任何 运算 
元 的 split 就 等 价 于 split (…，$_ ，0) 。 

e 如 果 regex 为 |^， ， 会 自动 使 用 修饰 符 /m (增强 型 行 锚 点 匹配 模式 ) 。〔( 因 为 某 些 原因 ，'$| 则 不 
行 )。 因 为 明确 使 用 m/N/m 非 党 容易， 我 推荐 这 种 更 清晰 的 写法 。m/A/m 是 把 包含 多 行文 本 的 字符 串 按 行 切 
分 的 简便 方法 。 

Split 不 产生 伴随 效应 

请 注意 ，split 的 match 运 算 元 看 起 来 很 像 普 通 的 match 运 算 符 ， 但 是 它 没 有 任何 伴随 效应 。split 中 的 正则 
表达 式 不 会 影响 到 之 后 的 match 或 是 substitution 操 作 所 用 的 默认 正则 表达 式 ， 也 不 会 设置 $8&、” $1 之 类 
的 变量 。split 在 伴随 效应 上 完全 独立 于 程序 的 其 他 部 分 〈 注 8) 。 


Split 中 之 捕获 型 括号 的 match 运 算 元 
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Split's Match Operand with Capturing Parentheses 

捕获 型 括号 会 从 整体 上 改变 split。 一 旦 使 用 了 捕获 型 括号 ， 返 回 的 list 中 会 多 出 些 独 立 的 元 素 ， 它 们 对 
应 于 括号 捕获 的 元 妹 。 也 就 是 说 ，split 没有 返回 的 部 分 或 全 部 的 文本 ， 会 包含 在 返回 的 list 中 。 

例如 ， 在 处 理 HTML 时 ， 对 下 和 面 的 文本 调用 split (/ (<[A>]* >) D: 

..cand:-<B>very:<FONT:color=red>very</FONT > -much </B> -effort... 

返回 : 


[| 日 日 Linux[| || www.linuxidc.com [] [] 


( “NT 
全 MI "emut"; TE “BERGE. a.." J 
如 果 去 掉 捕获 型 括号 ，split /<[A>]* >) 返回 : 
('....and:','very-','very','*much','-effort...') 
Z tHOR A TUR AAS oT Be _E BRAY BR il] Cchunk-limit 限制 原来 字符 串 切 分 之 后 的 分 段 数目 ， 而 不 是 返回 元 
AINA) 。 
如 有 果 包 含 多 个 捕获 型 插 号 ， 每 次 匹配 之 后 ，list 会 多 出 多 个 元 素 。 如 采 啊 个 捕获 型 括号 没有 参与 匹配 ， 
对 应 的 元 素 为 undef。 





中 上 局 Dinux [|] www.linuxidce.com |] [] 


巧 用 Perl 的 专 有 特性 


Fun with Perl Enhancements 

最 先 由 Perl 提供 的 许多 正则 表达 式 概念 ， 现 在 其 他 语言 也 提供 了 。 包 括 非 捕获 型 括号 、 环 视 (以 及 之 
后 的 逆序 环视 ) 、 宽 松 排列 模式 〈 其 实 是 大 多 数 模式， 实际 上 还 包括 配套 的 vay. [zj az). EE 
分 组 、 NG) 和 条 件 判断 结构 。 这 些 概念 不 再 是 Perl 独 有 的 ， 所 以 我 把 它们 挪 到 本 书 的 通用 部 分 。 

不 过 Perl 者 也 没有 停止 创新 ， 所 以 现在 还 有 些 重要 的 概念 只 有 Pen 提供 。 其 中 最 有 意思 的 是 在 匹配 尝试 
中 执行 任意 代码 的 功能 。 长 期 起 来 ，Perl 的 特点 之 一 就 是 正则 表达 式 与 代码 的 友 密 集成 ， 但 是 此 特性 把 集 
Dobe tt Bi) fT HY tai BE o 

我 们 先 来 简单 看 看 这 个 特性 和 目前 Perl 独 有 的 其 他 特性 ， 然 后 详细 讲解 。 

动态 正则 结构 '， (? ? {perl code} ) | 

应 用 正则 表达 式 时 ， 每 次 遇 到 表达 式 中 的 这 个 结构 ， 就 会 执行 其 中 的 Perl 代 码 。 执 行 的 结果 (或 者 是 
regex 对 象 ， 或 者 是 解释 为 正则 表达 陈 的 字符 串 ) 会 作为 当前 匹配 的 一 部 分 即刻 被 应 用 。 

















fr Df 1 wees ha pees 4 : : pe : 
(Na+) 3? 区 1 中 的 动态 正则 结构 以 下 画 线 标注 ， 这 个 正则 表达 式 匹 配 的 行 开头 是 一 
个 数 ， 然 后 是 字符 皂 ? 必 须 重 现 对 应 的 次 数 ， 直 到 行 末尾 。 
它 能 匹配 ‘3XXX’ 和 ‘12XXXXXXXXXXXX’ ， 但 不 能 匹配 ‘3X’ 或 7XXXX’。 
ree 





ce A 3XXX 本 ae 

仔细 看 ‘3XXX’ 就 会 发 现 ， 开 头 的 1 (d+) y Ui U , ÆSIR. Za EN RRAS IE 
则 结构 ， 执 行 “X{$1}”， 得 到 ‘X{3}*， 解 释 得 到 的 Xx{3} 作为 当前 正 

则 表达 式 的 一 部 分 (匹配 和 ) ， 未 尾 的 1$ | 匹配 :3XXX _，， 得 到 整体 匹配 。 

下 面 我 们 会 看 到 ， 匹 配 任意 次 度 的 舱 和 套 结构 时 ， 动 态 正则 结构 尤其 有 用 。 

ERs | 02 {arbitrary perl code}) | 

与 动态 正则 结构 一 样 ， 在 正则 表达 式 的 应 用 过 程 中 ， 壳 到 此 结构 也 会 执行 其 中 的 ”Per 代码， 但 是 这 个 
结构 更 为 通用 ， 因 为 代码 不 需要 返回 任何 特定 的 什 。 通 第 也 不 会 用 到 返回 值 〈 不 过 如 果 表 达 式 之 后 的 部 分 
需要 ， 可 以 通过 变量 9AR 得 到 咯 302) 。 

有 一 种 情况 会 用 到 这 段 代 码 的 执行 结果 : 如 果 内 髓 的 代码 结构 用 作 C? if thenlelse) | PRERE C= 
140) 。 此 时 ， 结 果 会 解释 为 布尔 值 ， 根 据 它 来 决定 执行 then 还 是 else 分 文 。 

内 骨 代 人 码 可 以 干 许 多 事情 ， 相 当 有 用 的 就 是 调试 。 下 面 这 上 段 程 序 会 在 每 次 应 用 正则 表达 式 时 显示 一 条 
人 信息， 内藤 的 代码 结构 用 下 画 线 标注 : 

"hava a nice day" =~ m{ 
(?{ print "Starting match. \n"}) 
\b(?: the | an | a )\b 
}x; 

测试 中 ， 正 则 表达 式 只 匹配 1 次 ， 但 是 信息 会 显示 6 次 ， 说 明 传 动 儿 置 在 第 6 次 竹 试 之 前 已 经 在 5 个 位 置 
应 用 了 正则 表达 式 ， 第 6 次 可 以 完全 匹配 。 

正则 文字 重 载 

正则 文字 重 载 能 够 让 程序 员 先 目 行 处 理 正 则 文字 ， 再 将 它们 交 给 正则 引擎 。 它 可 以 用 来 为 Pearl 的 正则 
流派 扩展 新 的 功能 。 例 如 ，Perl 没 有 提供 单独 的 单词 起 始 和 结束 分 隔 符 (只 有 '\b， )〉 ， 不 过 你 可 能 希望 使 
用 \ 过 和 \>， 让 Per 能够 识别 这 些 结构 。 

正则 重 载 有 些 重 要 的 限制 ， 严 格 制约 了 它 的 用 途 。 在 讲解 \ 过 与 \> 的 例子 时 我 们 会 看 到 这 一 点 。 

如 果 正 则 表达 式 中 内 骨 了 Perl 代 人 码 ( 无 论 是 动态 正则 结构 还 是 内 骸 代 人 码 结构 〉，， 最 好 是 只 使 用 全 局 变 
量 ， 除 非 你 明白 关于 338 页 讲解 的 my 变量 的 重要 知识 。 关 于 my 变量 的 讨论 ， 请 参 疯 第 338 页 。 
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Using a Dynamic Regex to Match Nested Pairs 

动态 正则 表达 式 的 主要 用 途 之 一 是 区 配 任 意 深 度 的 租 套 结构 (长 久 以 来 人 们 认为 正则 表达 式 对 此 无 能 
为 力 ) 。 匹 配 任意 深度 的 通 套 括号 是 个 重要 的 例子 。 为 了 说 明日 动态 正则 如 何 解雇 这 个 问题 ， 我 们 首先 必 
须知 道 传统 结构 为 什么 不 能 解决 这 个 问题 。 

匹配 括号 文本 的 简单 表达 式 是 \(〈 CA OD x*\) | 。 在 外 层 括号 内 不 容许 出 现 括号 ， 所 以 不 能 容许 
RE GEME. RAVER AON RE) 。 用 regex 对 象 来 表示 允 是 : 


my S$Level0 = qe/ \( ( [*()] 和) # 括号 内 文本 








if (Stext =~ m/\b( \wtSLeveld0 )/x) 1 
print. “found function call: $Sl\n"; 


} 
IX REILHE “substr ($str, 0, 3) ”, (AA KEM substr ($str, 0, (3+2) )”, ANEAGRENFTE 
号 。 现 在 修改 正则 表达 陈 来 处 理 它 ， 也 束 是 需要 能 够 处 理 深 度 为 1 的 般 套 。 
容许 深 展 为 1 的 航 套 意味 看 ， 外 部 的 括号 里 头 可 以 出 现 插 号 。 所 以 ， 我 们 需要 修改 匹配 外 层 括号 内 文 
本 的 表达 式 ITA O ]| ， 添 加 一 个 子 表 达 式 匹配 内 层 括 号 里 的 文本 。 我 们 可 以 这 样 ，$Level0 保 存 这 样 一 个 
EWURA, FAME ESI: 
my $Level0 = gr/ \( ( [%*()] Je \) fey # 括号 内 文本 
my $Levell = qr/ \( ( [^()]| $Level0 )* \) /x; # LERS 
人 
JEKE o 
为 了 增加 骨 套 的 深度 ， 我 们 可 以 用 同样 的 方法 ， 通 过 $Levell 〈 仍 然 使 用 $Level0) 得 到 $Level2: 
my $Level0 = qr/ \( ( [*()] )* \) /x; # 括号 内 文本 
ny SLEevell = gez YA G [FOI | ShewelO Ja \) Za # LERS 
my SLevel2 = qr/ \( ( [*()] | SLevell )* \) /x; # 2ERE 
ARE BAW AE: 
my SLevel3 gr/ \( ( [*()] ; perel? )* W /x; # 3 ERE 
my SLevel4 = qr/ \( ( [*()] 3 SLevel3 )* Y /x; # 4ERE 
my $Level5 = qr/ \( ( [*()] ¢ S$Level4 )* \) /x; # SERRE 
图 7-1 说 明了 开始 几 层 的 情况 : 
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图 7-1: ERED NE 

把 这 些 层 级 加 起 来 的 结 末 很 复杂 ， 下 面 是 $Level13: 

\(POIMMOIMMOINGLOD * \)) * \)) KY) * \) 

这 相当 难看 。 

幸运 的 是 ， 我 们 不 需要 直接 解释 它 〈 那 是 正则 引擎 的 工作 ) 。 使 用 $Level 变 量 很 容易 a. 
fe, PENT HoLevell CS WA AREA. MINED BRIG CHa Rime, WIRE BE 
FEVREEA XA PRES, Wl 2) AY a AY RR E  FEZEX+1) 。 

Sieh, ASIEN UMER RENARE. UA eA, BREE—h Zh, BES SLevel tEh] 
构建 方式 都 是 相同 的 : 需要 增加 一 级 舱 套 深度 时 ， 只 需要 包含 上 一 级 的 $Level 变 量 即 可 。 但 如 果 $Level 变 
量 都 是 相同 的 ， 它 束 同 样 能 包含 更 深 级 别 的 $Level。 事 实 上 ， 它 还 可 以 包括 上 自身。 如 果 在 匹配 更 深层 的 般 
ENE 可 以 用 茶 种 方式 包含 Et 

这 了 是 动态 正则 的 威力 所 在 。 如 果 我 们 创建 一 个 就 可 以 在 动态 正则 中 
引用 它 (动态 正则 结构 可 以 包含 任意 .的 Perl 代码 ， 只 要 结果 人 E 被 解释 为 正则 表达 式 ， 返 回 已 存在 的 regex 对 
象 的 Perl 代 码 当 然 符合 要 求 ) 。 如 果 我 们 能 把 $Level 之 类 的 regex 对 象 放 入 $LeveIN， 就 可 以 用 1 ©? 2 
{$LevelN}) | 来 引用 它 : 


my SLevelN; # 必须 首先 声明 ， 下 面 才 能 使 用 
SLevelN = gr/ \(( [^()] | (??{ $LevelN }) )* \) /x; 
它 束 能 匹配 任意 深度 的 散人 套 括 写 ， 用 法 同 之 前 的 $Level0: 
if (Stext =~ m/\b( \wtSLevelN )/x) { 
PELHE "Eound function call: SIAD 








} 

哈 ! 想 明 日 其 中 的 道理 可 不 是 件 容易 的 事情 ， 不 过 一 旦 用 过 ， 束 会 发 现 这 个 工具 的 价值 。 

现在 我 们 已 经 有 了 基本 的 办 法 ， 我 布 望 做 些 修改 所 融 效 率 。 我 会 蔡 换 捕获 型 括 写 为 固化 分 组 (这 里 既 
不 需要 捕获 文本 ， 也 不 需要 回溯 ) ， 之 后 可 以 把 MON BAIA © H 提高 效率 。 (不 要 在 固化 分 组 
中 这 样 做 ， 否 则 会 造成 无 休止 匹配 分 226) 。 

BUR, RPEN GAV | 移动 到 动态 正则 表达 式 两 端 。 这 样 ， 在 确实 需要 用 到 之 前 ， 引 擎 不 会 
直接 调用 动态 正则 结构 。 下 面 是 修改 之 后 的 版 本 ; 

$LevelN=qr/(? > [AQ]+|\((??{$LevelN})\)) * /x; 

因为 它 不 包含 外 部 的 \〈..\) | ， 调 用 $LevelN 时 必须 手动 添加 。 

BORO, RERMHIRI mL ce etary ba el kad bal EMM kd YH Gute dL 


写 的 地 方 : 
if (Stext =~ m/\b( \w+ \( SLevelN \) )/x) { 
DELNE “Found Funckien Galle Sin"; 


if (not $text =~ m/* SLevelN S/x) { 
print "mismatched parentheses! \n"; 


} 
第 343 页 还 有 一 个 关于 $LevelN 的 例子 。 
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Using the Embedded-Code Construct 

内 租 代 码 结构 很 适合 调试 正则 表达 式 ， 以 及 积累 正在 进行 的 匹配 的 信息 。 下 面 几 页 详细 给 出 了 一 组 例 
子 ， 最 终 得 到 模拟 POSIX 史 配 的 方法 。 讲 解 的 过 程 可 能 比 真 正 的 答案 更 有 意思 【除非 你 只 需要 POSIX 的 允 
配 语意 ) ， 因 为 在 讲解 中 我 们 会 收获 有 用 的 技巧 和 局 友 。 

先 从 简单 的 正则 表达 式 调 试 拉 巧 开始 。 

用 内 舰 代 码 显 示 匹 配 进行 信息 








这 上 段 程序 : 
"abcdefgh" =~ m{ 
(?{ print "starting match at [$*‘|S$’]\n" }) 
(?:dle|f£) 
bX; 
的 结 采 是 : 
Starting match at [|abcdefgh] 
starting match at [a|bcdefgh] 
Starting match at [ab|cdefgh] 
starting match at [abc|defgh] 


EMMKAR Ak ENRAIAR, AAR ETE WU eA SUT oat He Lc, SAT: 
Print “Starting match at [SST in" 

它 用 变量 $ Al C300) GED 表示 目标 字符 串 ， 用 中 标记 当前 的 匹配 位 置 〈 在 这 里 就 是 匹配 开始 
的 位 置 ) 。 从 结 末 中 我 们 可 以 知道 ， 传 动 装 置 (二 148) 进行 了 4 次 应 用 ， 才 匹配 成 功 。 

事实 上 ， 如 果 我 们 添加 : 

(?{ print "matched at [S‘*<S&>S$’]\n" }) 

在 正则 表达 式 末 尾 ， 则 结 采 十 : 

matched at [abc<d>efgh] 

现在 来 看 下 面 的 程序 ， 除 了 “ 主 * 正 则 表达 式 是 [def] 而 不 是 1 (? : dlelf) | 之 外 ， 其 他 部 分 与 开头 
的 例子 是 一 样 的 : 





"abcdefgh" =~ m{ 
(?{ print "starting match at [$*|$’]\n" }) 
[def | 
} x; 
从 理论 上 说 ， 结 末 应 该 是 一 样 的 ， 实 际 情况 却 是 : 
Starting match at [abc|defgh] 


为 什么 呢 ? Perl ERAH, AXA det TEP EPO SALE fl] Ter TOA CS OA OI 








(247) ， 这 样 传动 闪 置 承 能 略 过 那些 它 认 为 必然 会 失败 的 符 试 。 结 和 东 是 忽略 了 其 他 所 有 答 试 ， 只 进行 了 
可 能 导致 匹配 的 答 试 ， 我 们 可 以 通过 内 和 花 代码 结构 观察 到 这 种 现象 。 





panic: top env 


LA RAAB AAD SEM RGA AN, HORA SRA, BREE: 
Panic: Lop env 

很 可 能 是 因为 正则 表达 式 的 代码 部 分 存在 语法 错误 。Perl 不 能 识别 某 些 错误 的 语法 ， 

结果 就 是 这 条 信息 。 解 决 的 办 法 就 是 修正 语法 错误 。 





H A Be AR AS Se as A A VE ie 
Perl 使 用 的 是 传统 型 NFA 引 擎 ， 所 以 一 旦 找到 匹配 束 会 俘 下 来 ， 即 使 还 存在 其 他 的 匹配 也 是 如 此 。 如 
果 巧 妙 地 使 用 内 骸 人 代码， 我 们 能 够 让 Perl 显 示 所 有 的 逻 配 。 我 们 仍然 以 177 页 的 ‘onself’ 为 例 来 说 明 。 
"oneselfsufficient" =~ mf{ 
one (self) ?(selfsufficient) ? 
(?{print "matched at [S$*<S&>$’]\n" }) 
bX; 


结果 如 我 们 所 料 : 


matched at [| <oneself > sufficient] 


& b i 9 
_ oneselfsufficient 


AN 已 经 被 正则 表达 了 式 匹 配 。 

重要 的 是 认识 到 ， 结 果 中 的 “matched” 的 部 分 并 不 是 所 有 ”能够 瑟 配 ?的 文本 ， 只 是 到 目前 获得 的 匹配 。 
在 这 个 例子 中 谈论 其 中 的 区 别 意 义 不 大 ， 因 为 内 般 代 人 码 结构 位 于 正则 表达 式 的 最 后 。 我 们 知道 ， 内 内 代 人 码 
结构 完成 时 ， 整 个 正则 表达 式 的 所 有 匹配 生 试 都 已 结束 ， 实 际 匹 配 的 结果 束 是 如 此 。 

不 过 ,在 内 嵌 代 码 结构 之 后 添加 C2!) | 的 情况 如 何 呢 ? | O ! ) | 是 否定 型 顺序 环视 ， 它 必然 
会 失败 。 如 果 它 在 内 骨 代 人 码 执 行 之 后 生效 (也 就 是 在 “matched” 信 息 打 印 之 后 )， 束 会 强迫 引擎 回 洲 ， 查 找 
新 的 匹配 。 每 次 输出 “matched” 信 息 之 后 ，' (? ! ) | 都 会 强迫 引擎 回 湖 ， 最 终 试 遍 所 有 的 可 能 。 

matched at [<oneself>sufficient] 
[ 


matched at [<oneselfsufficient>] 
matched at [<one>selfsufficient] 


RATETA 2 AT Pa LE WU RETA SU SAAS fe 56 SVE A, (AE AD fe LE S| BAER a i aN AT AY 2 AY 
了 解 了 这 一 点 之 后 ， 来 看 看 下 面 的 代码 : 





"123" =~ m{ 
\d+ 
(21 print "matched at [S$‘<S$&>$’]\n" }) 
(?!) 


全 :村 
结果 是 : 
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matched at [ ] 
matched at [| ] 
matched at [<1>23] 
matched at [| ] 
matched at | ] 
matched at [12<3>] 


前 三 行 是 我 们 能 够 想象 的 ， 但 如 果 不 仔细 动 动脑 筋 ， 可 能 没 法 理解 后 三 行 。 C ! ) | 强迫 进行 的 回 
溯 对 应 第 二 行 和 第 三 行 。 在 开始 位 置 的 答 试 失败 之 后 ， 传 动 骤 置 会 司 动 张 动 过 程 ， 从 第 二 个 字符 开始 《第 4 
草 对 此 有 详细 介绍 ) 。 第 四 行 和 第 五 行 对 应 第 二 轮 答 试 ， 了 最 后 一 行 对 应 第 三 轮 。 

所 以 ， WI CO ! ) 之 后 确实 能 最 示 出 所 有 可 能 的 匹配 ， 而 不 是 从 茶 个 特定 位 置 开 始 的 所 有 匹配 。 不 
过 ， 有 时 候 只 需要 从 特定 位 置 开 始 的 所有 匹配 ， 下 面 我 们 将 会 看 到 。 

寻找 最 长 匹配 

如 条 我 们 不 希望 找到 所 有 匹配 ， 而 是 布 望 找到 并 保存 最 长 的 匹配 ， 应 该 如 何 做 呢 ? 我 们 可 以 用 一 个 变 
量 来 你 存 “ 到 目前 为 止 ? 最 长 的 匹配 ， 比 较 每 一 个 “当前 匹配 ?和 和 它 。 下 面 是 "onself 的 例子 : 


Slongest match = undef; # 用 于 记录 最 长 的 匹配 








"oneselfsufficient" =~ mtf 
one (self) ?(selfsufficient) ? 
(714 
F 比较 当前 匹配 ($&) 与 之 前 记录 的 最 长 匹配 
if (not. defined ($longest match) 
or 
length($&) > length($Slongest match) ) 
{ 
Slongest match = $&; 
} 
}) 
(2!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


px; 


# 如 果 有 结果 ， 就 输出 
if (dëēfiñed (şlongest Maten)) 4 
print "longest match=[$longest match]\n"; 
} else { 
print "no mMatch\n"; 
} 
坚 不 奇 怪 ， 结 果 是 "longest ”match=[oneselfsufficient]?。 这 一 上 段 内 骸 代 人 码 很 长 ， 不 过 将 来 我 们 可 能 会 使 
用 ， 所 以 我 们 把 它 和 '(? ! ) | 封装 起 来 ， 作 为 单独 的 regex 对 象 : 
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my SRecordPossibleMatch = qr{ 
(21 
# 比较 当前 匹配 ($&) 与 之 前 记录 的 最 长 匹配 
if (not defined($longest match) 
Or 
length (35&) > length(S$longest match) ) 
{ 
Slongest match = $&; 
} 
}) 
(2?!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


Fæ 
TALARA > FR Bl SAR HL A9938: 
Slongest match = undef; # 记录 最 长 的 匹配 
"800-998-9938" =~ m{ \d+ SRecordPossibleMatch }x; 


# 输出 到 目前 为 止 的 累积 结果 
if (defined(Slongest match)) { 
print "longest match=[Slongest match] \n"; 
} else { 
Peine "no WACTER”: 
} 

寻找 最 左 最 长 的 匹配 

我 们 已 经 能 找到 最 长 的 全 局 匹配 ， 现 在 需要 找到 出 现在 最 前 边 的 最 长 匹配。POSIX NFA 束 是 这 样 做 的 
C177) 。 所 以 ， 如 果 找 到 一 个 匹配 ， 束 要 禁止 传动 装置 的 驱动 过 程 。 这 样 ， 一 旦 我 们 找到 菏 个 匹配 ， 正 
种 的 回溯 会 起 作用 ， 在 同一 位 置 寻 找 其 他 可 能 的 匹配 《同时 需要 保存 最 长 的 匹配 ) ， 但 是 禁用 驱动 过 程 保 
证 不 会 从 其 他 位 置 寻找 匹配 。 

Pel ”不 容许 我 们 直接 操作 传动 装置 ， 所 以 我 们 不 能 直接 禁用 驱动 过 程 ， 但 如 果 $longest_match 己 经 定 
义 ， 我 们 能 够 达到 实现 禁用 驱动 过 程 的 效果 。 测 试 定义 的 代码 是 1 (? {defined$longest_match}) | ， 但 这 
还 不 够 ， 因 为 它 只 训话 变量 是 否定 义 。 重 要 的 是 根据 测试 结束 进行 判断 。 

在 条 件 判 断 中 使 用 内 髓 代码 

为 了 让 正则 引擎 根据 测试 结果 改变 行为 ， 我 们 把 测试 代码 作为 | (? if thenlelse) | 中 的 if 部 分 C= 
140) 。 如 果 我 们 希望 测试 结果 为 真 时 正则 表达 式 停 下 来 ， 就 把 必然 失败 的 1 O ! ) | 作为 then 部 分 。 

(这 里 不 需要 else 部 分 ， 所 以 没有 出 现 ) 。 下 面 是 封装 了 条 件 判 断 的 regex 对 象 : 
my $BailIfAnyMatch = qr /(?(?{defined Slonget match}) (?!))/; 





if 部 分 以 下 夯 线 标注 ，then 部 分 以 粗 体 标注 。 下 和 面 是 它 的 应 用 实例 ， 其 中 结合 了 前 一 页 定义 的 
$RecordPossibleMatch: 
" 800-998-9938 " =~m{$BaillfAnyMatch\d+$RecordPossibleMatch}x; 
得 到 ‘800”， 它 符合 POSIX 标 准 一 一 “所 有 最 左 位 置 开 始 的 匹配 中 最 长 的 轧 配 ”。 
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Using localin an Embedded-Code Construct 

local Æ A RTA 2G 44) PARRA AY ek MC HEE mAN RAS VE C295) 的 概念 和 第 4 章 讲 解 
RATES HONEA S| ETME REIN M LIS LO” 158) 。 下 面 这 段 专门 设计 (我们 会 看 到 ， 它 有 
缺陷 ) 的 程序 没有 太 多 复杂 的 东西 ， 但 有 助 于 理解 jc 由 的 莘 k. iaeiae [日 





\s+, ， 以 及 有 多 少 w+ | 是 \d+\b : 
my SCount = 0; 


$text =~ mt 
= pO yee | wr | er 
X; 
WRH ERLIE ‘123-abc:73-9271-xyz’, $Count 的 值 是 3。 不 过 ， 如 果 匹 配 字符 


串 ‘123.abc:73xyz”， 结 果 束 是 2， 虽 然 应 该 是 1。 问 题 在 于 ，‘73’ 凡 配 之 后 ，$Count 的 值 会 发 生变 化 ， 因 为 后 
面 的 _\b| 无 法 匹配 ，\d+| 当时 匹配 的 内 容 需 要 通过 回 渊 “交还 ”， 内 抠 结 构 的 代码 却 不 能 恢复 到 “未 执 
行 ” 的 状态 。 

如 果 你 还 不 完全 了 解 固化 分 组 '(? >...) €139) 和 上 面 发 生 的 回溯 也 没关系 ， 固 化 分 组 用 于 避 
ICO IEVL AC C269) ， 但 不 会 影响 结构 内 部 的 回调 ， 只 会 影响 重新 进入 此 结构 的 回 湖 。 所 以 如 果 接 下 
来 的 由 | 不 能 匹配 ，“\d+ | 的 “交还 ”就 完全 没有 问题 。 

简单 的 解决 办 法 是 ， 在 $Count 增加 之 前 添加 \b| ， 保 证 它 的 值 只 有 在 不 进行 “交还 ”操作 的 情况 下 才 会 
变化 。 不 过 我 更 愿意 在 这 里 使 用 local， 来 说 明 应 用 正则 表达 式 期 间 这 个 函数 对 Perl 代 码 的 影响 。 来 看 这 上段 
程序 : 














our SCount. = Qs 

Stext =~ mif 

^ (?> \d+ (?{ local($Count) = $Count + 1 }) \b | \wt | \st+ )* $ 
}X; 


要 注意 的 第 一 点 是 ，$Count 从 my 变量 变 为 全 局 变量 (我 推荐 使 用 use strict， 如 果 这 么 做 了 ， 就 必须 使 
用 our 来 “声明 ”全 局 变量 ) 。 

另 一 点 要 注意 的 是 ，$Count 的 修改 已 经 本 地 化 了 。 关 键 在 于 : 对 正则 表达 式 内 部 的 本 地 化 变量 来 说 ， 
如 果 因 为 回溯 需要 “交还 ”local 的 代码 ， 它 会 恢复 到 之 前 的 值 〈 新 设 定 的 值 会 被 放弃 ) 。 所 以 ， 即 使 
local ($Count) =$Count+1 Æ d+) 匹配 73’ 之 后 执行 ， 把 $Count 的 值 从 1 改 为 2， 这 个 修改 也 只 会 是 调用 
local 时 的 “本 地 化 到 (当前 正则 表达 式 的) 成 功 路 径 >。 如 果 Nb) 匹配 失败 ， 正 则 引擎 会 回溯 到 local 之 前 ， 
$Count 恢 复 到 1。 这 也 就 是 正则 表达 式 结束 时 的 值 。 
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AER Perl 代码 的 插值 


因为 安全 方面 的 考虑 ，Perl REHA ARRA (?{…})1 或 动态 表达 式 结 构 
(23{…}) 对 正则 表达 式 进行 字符 串 插值 (不 过 它们 可 以 进行 regex MRIS, AF 
第 334 页 的 SRecordPossibleMatch)， 也 就 是 说 ， 

ml (?{ print "starting\n" }) some regex" }x; 
是 可 以 的 ， 但 

my $ShowStart = '(?{ print "starting\n" })'; 


m{ $ShowStart some regex }x; 
不 行 。 之 所 以 要 施加 这 种 限制 ， 是 因为 把 用 户 的 输入 作为 正则 表达 式 的 一 部 分 是 长 期 
以 来 的 首 遍 做 法 ， 引 入 这 些 结构 会 容许 用 户 运 行 任意 代码 ， 带 来 严重 的 安全 隐患 。 所 
VA, 默认 情况 下 不 容许 这 样 。 
如 果 你 总 欢 这 样 桥 值 ， 可 以 使 用 下 面 的 声明 (declaration): 

use re 'eval'; 


这 就 绕 开 了 限制 (设置 其 他 参数 ,编译 指示 (pragma) use re 也 可 以 用 于 调试 , $361) 
整理 用 于 插值 的 输入 数据 


如 果 采 用 了 上 面 的 做 法 ， 而且 确实 需要 使 用 用 户 输入 的 数据 插值 ， 请 确保 其 中 不 包含 
Ay & Perl 代码 或 者 动态 正则 结构 。 我们 可 以 用 正则 表达 式 \ (\s*\?+[p{]1 来 校 验 。 如 
果 输 入 数据 能 够 匹配 ， 把 它 用 在 正则 表达 式 里 就 是 不 安全 的 。 使 用 \s*1 是 因为 /x 
修饰 符 容 许 开 括号 之 后 出 现 空 白字 符 (我 更 愿意 相信 它们 不 应 该 出 现在 那里 ， 不 过 事 
实 却 与 此 相反 )。 加 号 约束 的 ?| 保证 两 种 结构 都 可 以 识别 。 最 后 ,包含 是 为 了 匹配 
现在 已 经 庆 弃 的 '(?p1…}) | 结构， 也 就 是 老 版 本 的 | (??{1…)) 1, 

我 想 最 好 的 办 法 是 由 Perl 提供 某 个 修饰 符 , 榨 制 在 整个 正则 表达 式 或 某 个 子 表达 式 中 ， 
容许 还 是 禁止 使 用 内 嵌 代 码 。 但 是 在 没有 实现 之 前 ， 我 们 必须 按照 上 面 介绍 的 办 法 手 
LHS, 


所 以 ， 为 了 保证 $Count 的 记 数 不 发 生 错 误 ， 必 须 使 用 local。 如 果 把 | (? {print "Final count is 
$Count.\n" P | 放 在 正则 表达 式 的 末尾 ， 它 会 显示 正确 的 计数 值 。 因 为 我 们 希望 在 匹配 完成 之 后 使 用 
$Count， 束 必须 在 匹配 正式 结束 之 前 把 它 保 存 到 一 个 非 本 地 化 的 变量 中 。 因 为 匹配 完成 之 后 ， 所 有 在 匹配 
过 程 中 本 地 化 的 变量 都 会 丢失。 

下 面 是 一 个 例子 : 








[| 日 Linux[| |] www.linuxidc.com [| L 


my S$Count = undef; 
our S$TmpCount = 0; 


Stext =~ mt 
~ (7> Mat (2 Tocal (STrpCoint) = Simecount + 1 }) BB | Wt | \st J+ $ 
(?{ $Count = $TmpCount }) # 最 后 将 SCount 存 入 非 本 地 变量 中 
bX; 
if (defined $Count) { 
print “Count 18 SCount. wn"; 
} else { 
print "nd matchi’; 


} 


看 起 来 这 么 做 有 点 儿 折 腾 ， 但 这 个 例子 的 目的 是 说 明正 则 表达 式 中 本 地 化 变量 的 工作 机 制 。 我 们 会 在 
第 344 页 的 “模拟 命名 捕获 ”中 见 到 实际 的 应 用 。 


关于 内 风 代 码 和 my 变量 的 忠告 


A Warning About Embedded Code and myVariables 
如 果 my 变 量 在 正则 表达 式 之 外 声明 ， 那 么 在 正则 表达 式 之 中 的 内 骸 代 码 引 用 ， 就 必须 非常 小 心 ，Perl 
中 变量 绑 定 的 详细 规定 可 能 会 产生 重大 的 影响 。 在 讲解 这 个 问题 之 肌 ， 我 必须 指出 ， 如 果 正 则 表达 式 的 内 
藤 代 码 中 使 用 的 都 是 全 局 变量 束 没 有 这 种 问题 ， 完 全 可 以 跳 过 这 一 六。 上 忠告， 这 一 市 难度 不 小 。 
下 面 的 例子 说 明了 问题 : 
sub CheckOptimizer 
| 
my $text = shift; # 第 一 个 参数 是 要 检索 的 文本 
my $start = undef; # 记录 表达 式 第 一 次 应 用 的 位 置 
my Smatch = $text =~ m{ 
(?{ $start = $-[0] if not defined $start}) # 保存 第 一 次 应 用 的 位 置 
\d # 这 是 需要 测试 的 正则 表达 式 
jx; 
if (not defined $start) { 
print "The whole match was optimized away.\n"; 
if (Smatch) { 
# 这 种 情况 不 可 能 发 生 | 
print "Whoa, but it matched! How can this happen! ?\n"; 





} elsif ($start == 0) { 
print "The match start was not optimized.\n"; 
} else { 


print "The optimizer started the match at character $start. \n" 
} 


程序 中 包含 3 个 my 变量 ， 但 是 只 有 $start 与 此 问题 有 关 〈 因 为 其 他 两 个 并 没有 在 内 骸 代 人 码 中 引用 )〉 。 程 
o 设 为 未 定义 的 什 ， 然 后 应 用 开头 元 素 为 内 租 代 人 码 的 匹配 ， 只 是 在 $start 未 设 定时 ， 内 花 代 三 
结构 才 会 把 $start 设 置 到 答 试 开始 位 置 。“ 本 次 答 试 的 起 始 位 置 ? 取 目 $-[0] (@- 的 第 1 个 元 系 坊 302) 。 
所 以 ， 如 采 调 用 : 
CheckOptimizer( " test 123 " ); 
LAE: 
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The optimizer started the match at character 5. 
这 没有 问题 ， 但 如 果 我 们 再 运行 一 次 ， 结 末 束 成 了 : 
The whole match was optimized away. 
Whoa, but it matched! How can this happen!? 


即使 正则 表达 式 检查 的 文本 没有 变化 (而 且 正 则 表达 式 本 里 也 没有 变化 )， 结 果 却 不 一 样 了 ， 你 发 现 
问题 了 吗 ? 问题 就 在 于 ， 在 第 二 次 调用 中 编译 正则 表达 式 时 ， 内 骸 代 人 码 中 的 $start 取 的 是 第 一 次 运行 之 后 设 
置 的 值 。 此 函数 的 其 他 部 分 使 用 的 $start 其 实 是 一 个 新 的 变量 一 每 次 函数 调用 的 开始 ， 执 行 my 都 会 重新 设 
置 这 个 值 。 

问题 的 关键 束 在 于 ， 内 骸 代 人 码 中 的 my 变量 “锁定 ”( 用 术语 来 说 就 是 : 绑 定 bound) 在 具体 的 my 变量 的 
实例 中 ， 此 实例 在 正则 表达 式 编 详 时 激活 。 “正则 表达 陈 的 编译 详 见 348 W) 每 次 调用 CheckOptimizer， 
都会 创造 一 个 新 的 $start 实 例 ， 但 是 用 户 很 难以 穴 和 党， 内 明代 码 中 的 $start 仍 然 指 回 之 前 的 仁 。 这 样 ， 函 数 其 
他 部 分 使 用 的 $start 实 例 并 没有 接收 到 正则 表达 式 中 传递 给 它 的 值 。 

这 种 类 型 的 实例 绑 定 称 为 “ 闭 包 (closure) ”, Programming Perl 和 Object Oriented Perl 之 类 的 书 中 介绍 了 
这 种 特性 的 价值 所 在 。 关 于 闭 包 ，Perl 社 群 中 存在 争议 ， 比 如 本 例 中 闭 包 究竟 是 不 是 一 种 “特性 ”， 束 有 不 同 
看 法 。 对 大 多 数 人 来 说 ， 这 很 难 理解 。 

解决 的 办 法 是 ， 不 要 在 正则 表达 式 内 部 引用 my 变量 ， 除 非 你 知道 正则 文字 的 编译 与 my 实例 的 更 新 是 
一 致 的 。 比 如 我 们 知道 ， 第 345 页 SimpleConvert 子 程序 中 使 用 的 my 变量 $NestedStuffRegex 没有 这 个 问 
题 ， 因 为 $NestedStuffRegex 只 有 一 个 实例 。 这 里 的 my 不 在 函数 或 者 循环 之 中 ， 上 所 以 它 只 会 在 脚本 载 入 时 
创建 一 次 ， 然 后 一 直 和 存在 ， 和 直到 程序 终止 。 
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Matching Nested Constructs with Embedded Code 
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办 法 很 简单 : 记录 已 经 遇 到 的 未 配对 开 括 号 的 数量 ， 只 有 此 数量 大 于 0 时 ， 才 容许 出 现 闭 括号 。 在 匹 
配 文 本 的 过 程 中 ， 我 们 使 用 内 砍 代 人 码 来 计数 ， 不 过 在 这 之 前 必须 得 看 看 〈“ 目 前 还 不 能 运行 的 ) 正则 表达 式 
的 框架 。 

















my SNestedGuts = qr{ 


(2> 
7a 
# RAE ZIP FA 
[“() J+ 
E 开 括 号 
| \( 
# de> 
| \) 
ka 
) 
Ix 


为 了 保证 效率 ， 我 们 使 用 了 固化 分 组 ， 因 为 如 果 $NestedGuts ”用 于 更 大 的 正则 表达 式 ， 就 可 能 导致 回 
滴 ， 这 样 ，([...]+|...〉* | 就 会 造成 无 休止 匹配 (226) 。 举 例 来 说 ， 如 果 我 们 将 其 作为 mA 
($NestedGuts\) $/x; 的 一 部 分 ， 应 用 到 “(this*is*missing*the*close’ 中 ， 如 果 没 有 使 用 固化 分 组 ， 束 得 在 记 
录 和 回 淹 上 人 花费 漫长 的 时 间 。 

为 了 配合 计数 ， 我 们 需要 4 步 : 

0 计数 必须 从 0 开始 : 

(?{local $OpenParens=0 }) 
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(2?{$OpenParens+-+ }) 
HAIRS, wires, WRAP 0 MRA 1， 衣 示 已 经 匹配 了 一 对 括号 。 如 果 等 于 0， 残 俘 











止 匹配 (因为 闭 插 号 与 开 插 号 不 匹配 ) ， 所 以 用 (? ! ) | 强迫 匹配 失败 。 


配 结束 惑 检查 记 数 硕 ， 硝 傈 它 等 于 0， 人 否则 说 明 仍 然 有 未 匹配 的 开 括号 ， 因 此 匹配 失败 。 


(2(2{$OpenParens}) (?{$OpenParens--})|(?!)) 
这 里 使 用 了 |， (? if thenlelse) | 条 件 判断 《至 140) ， 用 内 骸 代 码 判 断 记 数 闫 ， 作 为 if 部 分 。z 一 旦 匹 








(?(?{$OpenParens!=0})(?!)) 
综合 起 来 束 得 到 : 
my SNestedGuts = qr{ 
(?{ local $OpenParens = 0 }) # 0 计算 未 结束 的 开 括 号 的 数目 
(?> # 固化 分 组 ,提高 效率 
Les 
E 除 括 号 以 外 的 字符 
bp 
E e 开 括号 
| \( (?{ S$OpenParens++ }) 
# 二 闭 括 号 
| \) (?(?{ S$OpenParens != 0 }) (?{ SOpenParens-- }) | (?!) ) 
)* 
) 
(?(?{ SOpenParens != 0 })(?!)) # 关 如 果 还 有 开 插 号 ， 则 匹配 未 结 
}x; 
这 段 程序 的 使 用 方法 与 第 330 页 的 $LevelN 完 全 相同 。 
为 了 分 离 正 则 表达 式 中 的 $OpenParens 和 程序 中 可 能 出 现 的 其 他 全 局 变量 ， 这 里 使 用 了 local。 但 local 的 


用 法 与 之 前 的 不 同 ， 这 里 不 需要 避免 回 湖 ， 因 为 正则 表达 陈 使 用 了 固化 分 组 ， 一 旦 某 个 多 选 分 文 能 够 号 
配 ， 残 不 会 变 为 "交还 ”。 这 样 ， 固 化 分 组 既 保 证 了 效 雍 ， 又 保证 了 内 般 代 码 结构 附近 匹配 的 文本 不 会 在 回 
调 中 交还 〈 这 样 $OpenParens 束 与 实际 匹配 的 开 括 号 数目 一 致 ) 。 


te 


正则 文学 重 载 


Overloading Regex Literals 

通过 重 载 ， 用 己 可 以 通过 目 己 喜欢 的 方式 预先 处 理 正 则 文字 中 的 文字 部 分 。 下 面 几 节 给 出 了 例子 。 
添加 单词 起 始 /结束 元 字符 

Perl 没 有 提供 作为 单词 起 始 /结束 元 字符 的 \ 和 | AVS | ， 可 能 是 因为 绝 大 多 数 情 况 下 “\b | 已 经 够 用 
不 过 ， 如 宋 我 们 希望 使 用 这 两 个 元 字符 ， 我 们 可 以 通过 重 载 ， 将 表达 却 中 的 ^ 过 2? 和 A\> Sp PRA 


|? <!\w) (? =\w) H! (? <=\w) (? ! \w) jo 


先 创 建 一 个 函数 ，MungeRegexLiteral， 进 行 需 要 的 预 处 理 : 


sub MungeRegexLiteral (S$) 
{ 


my ($RegexLiteral) = @ ; # 参数 是 字符 串 
SRegexLiteral =~ s/\\</(2?<!\\w) (?=\\w)/g; + 模拟 单词 起 始 边 界 \< 
SRegexLiteral =~ s/\\>/(?<=\\w) (?1\\w)/g; + 模拟 单词 结束 边界 \> 
return $RegexLiteral; # “返回 修改 后 的 字符 事 

} 
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replacement 部 分 类 似 双 引 号 字符 串 ， 所 以 需要 用 Ww’ 表示 ^\w’。 
为 了 让 它 能 够 目 动 处 理 正 则 文学 的 每 个 文字 部 分 ， 我 们 将 其 存 入 文件 MyRegexStuff.pm， 供 Perl 重 载 : 
package MyRegexStuff; # 起 个 特殊 的 名 字 


use strict; # iX AFD 
use warnings; # 这 也 是 个 好 习惯 
use overload; # 启用 Perl 的 重 载 机 制 


# #A regex handler.... 
sub import { overload::constant qr => \&MungeRegexLiteral } 


sub MungeRegexLiteral (S$) 

{ 
my ($RegexLiteral) = @; + RRAFHH 
SRegexLiteral =~ s/\\</(2?<!\\w) (?=\\w)/g; # 模拟 单词 起 始 边界 \< 
SRegexLiteral =~ s/\\>/(?<=\\w) (?!\\w)/g; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 串 

} 


1; # 标准 做 法 ，'use' 此 文件 肯定 会 返回 true 
将 MyRegexStuff.pm 放 在 Perl 的 库 路 径 〈library path， 请 参考 Perl 文 档 中 的 PERLLIB) 下 ， 所 有 需要 使 用 
此 功能 的 Perl 脚本 都 可 调用 。 如 果 只 是 为 了 测试 ， 可 以 将 其 放 在 测试 脚本 同一 目录 内 ， 这 样 调用 : 
use lib '.'; # 在 当前 目录 中 寻找 库 文件 
use MyRegexStuff; # 现在 可 以 使 用 此 功能 了 


$text =~ s/\s+\</ /g; # 将 单词 之 前 任意 数目 任意 形式 的 空白 字符 替换 为 单个 空格 

每 个 需要 这 样 处 理 正则 文字 的 程序 文件 都 必须 使 用 MyRegexStuff， 但 是 MyRegexStuff.pm 只 需要 构建 一 
次 《此 功能 在 MyRegexStuff.pm 内 部 不 可 用 ， 因 为 它 没 有 use MyRegexStuff 一 一 我 们 肯定 不 会 这 样 做 ) 。 

洪 加 占有 优先 量词 

我 们 继续 完善 MyRegexStuff.pm， 让 它 支 持 占 有 优先 量词 例如 x++| (号 142) 。 占 有 优先 量词 的 
作用 次 似 普通 的 匹配 优先 量词 ， 只 是 它们 了 永远 不 会 释放 《也 就 是 “交还 ”) 任何 已 经 匹配 的 内 容 。 用 固化 分 
组 来 模拟 的 话 ， 只 需要 去 掉 最 后 的 +，”， 把 量词 修饰 的 所 有 内 容 放 到 固化 分 组 里 ， regex +) 就 成 了 C? 
>regex*) | (173) 。 

占有 优先 量词 限定 的 部 分 可 以 是 括号 内 的 表达 式 ， 也 可 以 是 w 或 者 \x{f1234} | 之 类 的 元 序列 ， 或 
是 普通 字 从 。 要 处 理 所 有 人 情况 并 不 容易 ， 所 以 为 镜 便 起 见 ， 我 们 只 关注 作用 于 括号 的 ? +、 关 + 和 ++。 有 了 
330 页 的 $LevelIN， 我 们 可 以 把 这 上 段 程序 : 

$RegexLiteral=~s/(\($LevelN\)[ * +2])\+/(2 > $1)/gx; 

NIN #!| MungeRegexLiteral K žit. 


现在 ， 它 成 为 overload _ package 的 一 部 分 ， 我 们 可 以 在 正则 文字 中 使 用 占有 优先 量词 ， 例 如 第 198 页 的 
这 个 例子 : 





Stext =~ s/7™(\\.| [ST # 去 掉 双 引号 字符 串 
如 果 要 处 理 的 情况 不 只 是 括号 ， 就 要 复杂 很 多 ， 因 为 正则 表达 式 中 的 变数 很 多 ， 下 面 是 一 种 答 试 : 
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SRegexLiteral =~ s{ 
( 
# 匹配 可 能 的 限定 对 象 


(?: \\[\\abCdDefnrsStwWwx] # \n、\'w 之 类 
| \\c. F \cA 
| \\x[\da-fA-F] {1,2} # \xFF 
| \\x\{[\da-fA-F] *\} ¢ [123437 
| WW THR] I + OC better } 
| SOM eo Ie # 学 符 组 
| \\\W # \* 
| \( SLevelN \) 昌 to) 
| [aO EANN] # ”其 他 任何 字符 


) 
E ARETE eni 
(2: Peer] | ACE Ce, verry 2 
) 
\+ # 。。 和 量词 之 后 的 + 
ri (2281) box 
这 个 表达 式 的 大 体形 式 和 之 前 一 样 : EH Ao ee DL HEAR, AHS +, RE PS eA 
用 (? >...) | 围 起 来 。 要 想 识 别 Perl 正则 表达 式 的 复杂 语法 ， 这 样 还 很 不 够 。 匹 配 字符 组 的 部 分 政 需 
改进 ， 因 为 它 并 不 能 识别 字符 组 内 部 的 转 义 。 更 粮 糙 的 是 ， 这 个 表达 式 的 基本 思路 有 问题 ， 因 为 它 不 能 完 
整 识 别 Perl 的 正则 表达 式 。 比 如 ， 它 就 不 能 正确 处 理 ^ (blah\) ++: 中 作为 普通 字符 的 开 括号 ， 而 是 认为 
t+ 仅仅 限定 \) Je 
解决 这 个 问题 得 花 许多 工夫 ， 或 许 得 想 办 法 从 前 往 后 仔细 授 历 整 个 正则 表达 式 〈 类 似 第 132 页 的 补 元 内 
容 中 的 办 法 ) 。 我 本 来 希望 改善 处 理 字 符 组 的 元 素 ， 但 是 最 后 觉得 没 必要 处 理 其 他 复 林 情况 ， 原 因 有 两 
个 。 第 一 个 是 ， 这 个 表达 式 能 应 付 大 部 分 正 第 的 情况 ， 所 以 修正 处 理 字 符 组 的 元 素 束 能 满足 实用 要 求 了 。 
更 重要 的 一 点 是 ， 目 前 Perl 的 正则 表达 式 重 载 有 严重 问题 ， 结 果 它 的 用 途 大 打折 扣 ， 讨 论 见 下 一 贡 。 


正则 文字 重 载 的 问题 


Problems with Regex-Literal Overloading 

正则 文字 重 载 的 功能 非常 有 有 用， 至 少 在 理论 上 是 如 此 ， 不 幸 的 是 实际 情况 并 非 如 此 。 问 题 在 于 ， 它 只 
对 正则 文学 中 的 文学 部 分 有 效 ， 而 不 会 影 啊 插值 部 分 。 例 如 ， 在 m/ ($MyStuff〉 类 +/ 中 MungeRegexLiteral 
KAOH PRR, ve fee CS OC); 男 一 次 是 插值 之 后 《“) K+"). CE Ka AH 
$MyStuff WH) 。 因 为 重 载 必 须 同时 找到 两 个 部 分 ， 而 插入 的 值 又 是 不 确定 的 ， 所 以 实际 上 重 载 不 会 生 
效 。 

对 之 前 添加 的 和 和 \> 来 说 ， 这 不 是 个 问题 ， 因 为 变量 人 答 换 不 太 可 能 把 它们 切 段 。 但 是 因为 重 载 不 会 
影 啊 插值 变量 ， 包 含 ^ 雪 :或 ^> :的 字符 串 或 regex 对 象 天 不 会 受 重 载 影响 。 上 一 节 已 经 提 到 ， 如 果 由 重 载 来 
处 理 正 则 文字 ， 就 很 难 每 次 都 保证 完整 性 和 准确 性 。 即 使 是 与 \> 一 样 简 单 也 会 出 问题 ， 例 如 忆 >:， 它 表示 
MRA Za AIRRA SS >’. 

另 一 个 问题 是 ， 重 载 不 知道 正则 表达 式 所 使 用 的 修饰 符 。 表 达 式 是 人 否 使 用 了 MX 是 很 重要 的 问题 ， 但 重 
载 没 有 确切 的 办 法 知道 。 

最 后 还 必须 指出 ， 使 用 重 载 会 禁止 根据 Unicode 命 名 指定 字符 的 功能 ('\N{name}) = 290) 。 


模拟 命名 捕获 











Mimicking Named Capture 


讲 完了 重 载 的 不 便 之 后 ， 我 们 来 看 看 综合 了 许多 特殊 结构 的 复杂 例子 Perl 没有 提供 命名 捕获 (二 
138) 的 功能 ， a a no L 


捕获 型 括号 匹配 的 内 容 〈 现 在 我 假扮 Pearl 开发 人 员 ， 使 用 $AN， 特 意 为 Perl 增 加 命名 捕获 的 功能 
来 看 个 简单 的 例子 : 
href\s*=\s* (SHttpUrl) (?{ Surl = $^N }) 
p 
X EIEH T3038 Wregexxt RSHttpUrl. FERD E AIRI, JE$HttpUr ILEA A A RE FI 


$url 中 。 在 这 里 用 $ 和 AN 取代 $1 似乎 有 些 多 此 一 举 ， 甚 至 不 必要 使 用 内 崩 代 码 ， 因 为 在 匹配 之 后 使 用 $1 更 加 
方便 。 但 是 如 条 把 其 中 一 部 分 封 痛 到 regex 对 月 ， 然 后 多 次 使 用 : 


my $SaveUrl = qr{ 


(SHttpUr1)} # 匹配 HTTP URL... 
(ei Surl = SH J) #  .. .保存 到 $url 
|X; 
Stext =~ m{ 


http \s*=\s* ($SaveUrl) 
| src \s*=\s* ($SaveUr1) 
}X1; 

无 论 $HttpUrl 是 怎么 匹配 的 ，$url 都 会 被 设置 为 URL。 在 这 个 徐 单 应 用 中 可 以 使 用 其 他 办 法 《例如 
SERTO) ， 但 是 在 更 复杂 的 情况 中 ，$SaveUrl 之 外 的 办 法 更 难 维护 ， 所 以 将 它 保存 到 命名 变量 中 方便 
{EB 

这 里 有 一 个 问题 ， 如 果 设 定 $url 的 结构 在 回 济 中 被 “交还 ”， 己 设 定 的 值 却 不 会 “撤销 保存 
Cunwritten) ”。 所 以 要 在 初始 匹配 时 修改 本 地 化 的 临时 变量 ， 只 有 在 整体 匹配 真正 确认 之 后 才 保存 “ 真 
下 ”的 变量 ， 束 像 第 338 页 的 例子 一 样 。 

下 面 给 出 了 一 种 解决 办 法 。 从 用 户 的 角度 来 看 ， ETO <Num>\d+) | 之 后 ， d+| 匹配 的 数值 仍 
然 可 以 以 $AN{Num} 访 问 。 尽 管 未 来 版 本 的 Perl 可 能 会 把 %AN 转 换 为 革 种 特殊 的 系统 变量 ， 现 在 仍然 不 是 特 
殊 的 ， 所 以 我 们 可 以 随意 使 用 。 

我 们 可 以 使 用 %NamedCapture 之 关 的 名 字 ， 但 选择 %AN 是 有 理由 的 。 之 一 是 它 类 似 $AN。 另 一 个 理由 
是 ， 如 果 写 明了 use strict， 它 不 需要 了 预 声 明 。 最 后 ， 我 希望 Per] 最 终 会 内 建 对 命名 捕获 的 文 持 ， 所 以 我 认 
为 9%AN 是 个 好 办 法 。 如 果 果 真如 此 ，%AN 就 能 够 和 正则 表达 式 的 其 他 变量 C299) 一 样 ， 自 动 使 用 动态 
作用 域 。 但 是 目前 ， 它 只 是 普通 的 全 局 变量 ， 所 以 不 会 目 动 使 用 动态 作用 域 。 

当然 ， 即 便 是 这 个 程序 也 会 出 现 正 则 文字 重 载 的 办 法 所 具有 的 问题 ， 例 如 不 能 处 理 插 值 变量 。 
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模拟 命名 捕获 


package MyRegexStuff; 

use strict; 

use warnings; 

use overload; 

sub import { overload::constant('gr' => \&MungeRegexLiteral) } 


my SNestedStuffRegex; # 在 自身 定义 中 人 使用， 必须 预 声 明 
SNestedStuffRegex = qr{ 
(?> 
(22 # 非 括 号 非 转 义 的 字符 ... 
[MAE NAATA 
t EATA 
| WW Ahe J 
# 正则 表达 式 注释 ... 
| y #.*\n 
# ”匹配 点 套 结 构 .. . 
| \( (??{ SNestedStuffRegex }) \) 
| 入 
) 
} xX; 
sub SimpleConvert($); # iğ MMA, LITA pW 
sub SimpleConvert ($) 
{ 
my Sre = shift; # 要 处 理 的 表达 式 


sre =~ S| 


\(\? + LT fe i 

2 ¢ awm 3} S # <51 > $1 是 标识 符 

( SNestedStuffRegex ) # $2 — PRE MapwBAW 
\) # sii) Si 


ra 
my $id = $1; 
my Sguts = SimpleConvert ($2); 


# 把 

# (?<id>guts) 

# PLA 

# (?: (guts) # Æ guts 

# (?{ 

a local ($^N{$id}) = $quts # 保存 °*T 中 的 本 地 化 元 素 

# }) 

# ) 

"es (Sques) (Ff Local (\$“*Tti'Sid"}] = WSN }))" 
}xeog; 
return Sre; # 返回 处 理 结果 


} 


sub MungeRegexLiteral ($) 

{ 
my ($RegexLiteral) = @ ; # 参数 为 字符 事 
# print "BEFORE: $RegexLiteral\n"; # 调试 时 取消 注释 
my Snew = SimpleConvert ($RegexLiteral); 
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?{ local(%^T) = () })/; # 本 地 化 临时 hash 变量 
{ SAN = 3°T })/; # 把 它们 拷贝 到 "真正 的 "hash 变量 
"Sbefore (?:Snew) Safter"; 


( 
? 


my Sbefore = q/ 
/ ( 


my Safter = q 
SRegexLiteral 

} 

# print "AFTER: $RegexLiteral\n"; # PAR IL EAE 

return SRegexLiteral; 

} 

L 
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效率 


Perl Efficiency Issues 

FERS ABUL F Perl IEW AeA SUNY OCs o eS FE EAE SRNFAW CAPE. ROHS ZAIN TG 
一 一 内 部 优化 、 消 除 循环 ， 以 及 “开动 你 的 大 脑 ”， 都 适用 于 Perl。 

当然 ，Perl 也 有 专属 于 上 自己 的 问题 ， 这 一 节 我 们 残 来 看 看 : 

e 办 法 不 止 一 种 Perl 束 像 一 个 工具 箱 ， 同 一 种 问题 可 以 用 许多 办 法 来 解决 。 理 解 了 Perl 的 思维 方式 ， 束 
会 明日 哪些 问题 是 钉子 ， 但 是 选择 合适 的 锤子 还 需要 兹 很 多 工夫 来 编写 高 效 而 易于 理解 的 程序 。 有 了 时候， 
效率 和 易于 理解 似乎 是 不 相 容 的 ， 不 过 一 旦 理解 深入 了 ， 束 能 做 出 更 好 的 选择 。 

e 表 达 式 编译 、gr/.../、/o 修饰 符 和 效率 正则 运算 符 的 编译 和 插值 ， 做 得 好 的 话 能 节省 大 量 的 时 间 。/o 
修饰 符 还 没有 详细 讲解 ， 它 配合 regex 对 象 Car... ， 能 够 调控 耗费 时 间 的 重 编译 过 程 。 


e$& 的 负面 影响 伴随 效应 设 定 的 变量 3 、$& 和 ” ， 也 许 很 方便 ， 但 存在 不 易 发 现 的 效率 陷阱 ， 哪 怕 
只 出 现 了 一 次 ， 也 可 能 带 来 麻烦 。 所 以 并 不 是 非得 使 用 它们 一 一 只 要 脚本 中 出 现 了 任意 一 个 变量 ， 负 面 影 
响 就 不 可 避免 。 

eStudy 函数 近年 来 ，Perl 提供 了 study C...) 函数 。 按 照 预 期 ， 它 能 提高 正则 表达 式 的 速度 ， 但 是 似 
平 没 有 人 真正 知道 它 是 否 能 提高 速度 ， 以 及 背后 的 原因 ， 

e 性 能 测试 ”性 能 测试 的 规矩 就 是 ， 越 快 的 程序 终止 得 越 早 《你 可 以 引用 我 的 话 ) 。 无 论 小 型 函数 、 大 
型 函数 ， 还 是 处 理 真实 数据 的 整个 程序 ， 性 能 测试 都 是 判断 速度 的 最 终 标 准 。 尽 管 性 能 测试 有 各 种 各 样 的 
INE, Perl 中 的 性 能 测试 却 是 简单 而 轻松 的 。 我 会 给 出 我 用 的 办 法 ， 这 个 办 法 在 写作 本 书 时 做 过 数 百 次 性 
能 测试 。 

e 正 则 表达 式 调试 Perl 的 正则 表达 式 调试 标识 位 (debug flag) 可 以 告诉 我 们 ， 正 则 引 敬 和 传动 装置 对 
正则 表达 式 进行 了 哪些 优化 。 下 面 会 讲解 如 何 查看 这 些 信息 ， 以 及 Perl 包含 了 哪些 秘密 。 


办 法 不 只 一 种 

















"There's More Than One Way to Do It" 

Wa, AEA TS RR, ATED CR ALT BE EIN, DV AI te SRA ATS. OR 
看 个 简单 的 问题 ， 修 改 一 个 IP 地 址 ， 例 如 ‘18.181.0.24”， 保 证 每 一 段 都 包含 三 位 数字 : ‘018.181.000.024’ . 
人 简单 的 办 法 是: 

$ip=sprintf( " %03d.%03d.%03d.%03d " ,split(/./,Sip)); 

这 办 法 当然 没 错 ， 但 显然 还 有 其 他 的 解决 办 法 。 表 7-6 列 出 了 好 几 种 办 法 ， 比 较 了 它们 的 效率 (按照 交 
座 排 序 ， 最 上 面 的 效率 最 融 )。 这 个 例子 的 目的 很 简单 ， 本 里 也 没有 太 多 价值 ， 但 是 它 能 代表 简单 的 文本 
处 理 任务 ， 所 以 我 改 励 你 花 一 点 时 间 理 解 各 种 办 法 。 可 能 有 些 技 巧 你 没 见 过 。 

如 果 输 入 格式 正确 的 IP， 每 个 办 法 都 能 到 正确 的 结果 ， 但 是 如 果 输 入 列 的 数据 则 可 能 会 出 错 。 如 果 数 
据 是 不 规范 的 ， 可 能 就 需要 多 花 点 心思 。 除 此 之 外 ， 实 际 差别 在 于 效率 和 可 读 性 。 就 可 读 性 而 言 ，##1 和 和 提 
13 似 乎 是 最 好 理解 的 〈 尽 管 效 率 上 存在 巨大 的 差异 ) 。 同 样 易 于 理解 的 是 #3 和 并 4 类 似 #1) , URH 
8 类 似 #13) 。 其 他 解法 都 太 过 复杂 了 。 

那么 效率 呢 ? 为 什么 不 同 的 解法 有 不 同 的 效率 ? 原因 在 于 NFA 的 工作 原理 (第 4 章 ) ，Perl 的 各 种 正则 
优化 措施 (第 6 章 ) ， 以 及 其 他 Perl 结构 的 处 理 速度 〈 例 如 sprintf， 以 及 substitution 运 算 符 的 机 制 ) 。 
substitution 运 算 符 的 /e 修 饰 符 ， 有 时 候 虽 然 不 可 或 向 ， 但 效率 低 的 解法 似乎 都 使 用 了 它 。 

比较 并 3 和 和 共 4，#8 和 #14 很 有 音义。 这 两 对 正则 表达 式 的 区 别 只 是 在 于 括号 一 一 没有 括号 的 表达 式 要 
比 有 括号 的 和 快 一 点 。#8 使 用 $& 来 避免 括号 市 来 的 蜗 郧 代价 ， 性 能 测试 却 无 法 体现 这 一 点 355) 。 


表达 式 编译 、/0 修 饰 从 、gr/.../ 和 效率 


Regex Compilation,the/o Modifier,qr/.../,and Efficiency 
Perl "PG RIA TCR A Te, PEP SEU Za, EKMA EWI ASIA SUH, Perl 
必须 在 大 后 进行 预 处 理工 作 。 真 正 的 准备 工作 依赖 于 正则 运算 元 的 类 型 。 在 大 多 数 情况 下 ， 正 则 运算 元 是 


EMF, AU.. s/q.. Persie LATIF A a MC RAV iGO) 1] 





该 尽力 避免 。 自 完 ， 让 我 们 来 看 要 做 的 事情 ， 然 后 讲解 如 何 避 和 免 。 
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427-6: 填补 IP 地 址 的 若干 解法 


解法 

Sip = sprintf ("$03d.%303d.%03d.%03da", split(m/\./; Sip))? 
StSt (Sip, 0, 0) = 10t LE substr (Sip; iy i) eq ?.'; 
substr (sip,. Gy OF = 'O" LE subste(Sip,. ‘2, L eg t." 
substr (Sip, 4, 0) = "WW! if substr(Sip; 5, 1) eq '.'; 
substr (Sip, 4, 0) = "O" if substr(Sip, 6, 1) 6g T.T} 
substr(sip, ‘Br U) = 'Q' 1f substr($Sip, 9, 1) eq '":'; 
substr (Sip, 8, 0) "oO" af substr(sip,10, 1) eq "oy 
substr($ip, 12, 0) = 'O' while length ($ip) < 15; 


Sip = sprintf ("%03d.%03d.%03d.%03d", Sip =~ m/\d+/g); 
Sip =~ m/*(\d+)\. (\d+t) we (Ydtie (\d+) $7) 3 
| $ip =~ s/\b(2=\d\b) /00/g; 
Sip =~ s/\b(?=\d\da\b) /0/g; 
Sip =~ s/\b(\d(\d?)\b)/$2 eq '' ? "00S1" : "0$1"/eg; 
Sip =~ s/\d+/sprintf ("$03d", $&) /eg; 
Sip =~ s/(?: (?<=\.) 1^) (2=\d\b) /00/g; 
Sip =~ s/(?: (?<=\..) ^) (?=\d\d\b) 0/0; 
Sip =~ s/\b(\d\d?\b)/'0' x (3-length($1)) . Sl/eg; 
Sip =~ s/\b(\d\b) /00$1/g; 
Sip =~ s/\b(\d\d\b) /0$1/c; 
Sip =~ s/\b(\d\d?\b) /sprintft("303a", $1)/eg; 
Sip == s/\b(\d{1,2}\b) /sprintf ("$03d", $1) /eg; 
Sip =~ s/(\d+)/sprintf£("%03d", $1)/eg; 
Sip =~ s/\b(\d\d7(?!\d) )/sprint£ ("s03d", $1)/eg; 
Sip =~ s/ (22 (?<=\.) |*) (\d\d? (2!\d) ) /sprintf("303d", $1) /eaq; 


aa 
SS 
>< 


预 处 理 正则 表达 式 的 内 部 机 制 
预 处 理 正则 运算 元 的 机 制 在 第 6 半 有 所 涉及 (241) ， 不 过 Per 还 有 目 己 的 处 理 。 


Perl 对 正则 运算 符 的 预 处 理 大 致 分 为 两 步 : 


O O O O Linuxl] |] www.linuxidc.com [] [] 


1. 正则 文字 处 理 如 末 运 算 符 是 正则 文字 ， 允 按照 “正则 文字 的 解析 方式 ”〈 罕 292) 中 的 摘 

RRA., TEMER EEX 

2. 正则 编译 RE EURAN, WRAP A AU, RR i PE A A TE 5] SESE os DF ESA 

在 状态 《如 采 不 符合 规则 ， 则 报错 ) 。 

正则 表达 式 编 译 完成 之 后 ， 束 能 够 实际 应 用 到 目标 字符 串 中 ， 参 见 第 4 到 第 6 章 。 

并 不 是 每 使 用 一 次 正则 运算 符 ， 瓯 需要 进行 一 次 预 处 理 。 但 是 正则 文字 第 一 次 使 用 时 ， 必 须 进 行 预 处 
理 ， 但 如 采 多 次 执行 同样 的 正则 文字 《例如 在 循环 中 ， 或 是 调用 多 次 的 冰 数 ) ，Perl 有 时 候 能 够 重用 之 前 
的 工作 。 下 一 市 说 明了 Perl 如 何 做 到 这 一 点 ， 以 及 程序 员 可 以 使 用 的 提高 效率 的 技巧 。 

减少 正则 编译 的 步骤 

PRL PEI LS Perl 避免 某 些 正则 文字 相关 预 处 理 的 两 种 办 法 : 无 条 件 缓存 (unconditional 
caching) 和 按 需 重 编 译 (on-demand recompilation) 。 

Ti BAF 

如 末 正 则 文字 中 没有 插值 变量 ，Perl 瓯 知道 这 个 正则 表达 却 在 两 次 应 用 之 间 不 会 变化 ， 所 以 第 一 次 编 
译 完 成 之 后 ， 会 保存 编译 的 形式 (“缓存 ”) ， 以 备 将 来 使 用 。 无 论 正则 表达 式 会 执行 多 少 次 ， 只 般 要 检查 
和 编 详 一 次 。 本 书 中 的 大 多 数 正 则 表达 式 都 没有 变量 插值 ， 因 此 从 这 个 方面 来 说 效率 无 可 挑剔。 

内 骸 代 人 码 和 动态 正则 结构 中 的 变量 则 不 属于 此 类 ， 因 为 它们 不 会 插值 到 正则 表达 式 中 ， 而 古 作 为 正则 
表达 陈 执 行 的 固定 代码 的 一 部 分 。 有 时 候 ， 你 可 能 硕 望 每 次 执行 都 解释 内 租 代 码 中 引用 的 my 变量 ， 请 不 要 
态 记 第 338 页 的 忠告 。 

有 一 点 要 说 清楚 ， 绥 存 的 持续 时 间 与 代码 的 执行 时 间 相 同 ， 下 次 运行 同样 代码 时 不 会 有 任何 的 缓存 。 

按 需 重 编译 

并 不 是 所 有 的 正则 运算 元 都 能 够 直接 绥 存 ， 比 如 下 面 的 代码 : 

my $today = (gqw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 

# Stoday 保存 的 是 星期 数 ("Mon"， "Tue" 之 类 ) 








while (<LOGFILE>) { 
if (m/*$today:/i) { 


m/A$today: /中 的 正则 表达 陈 需 要 插值 ， 虽 然 在 循环 中 使 用 ， 但 每 轮 循 环 的 插值 结构 是 相同 的 。 所 以 
-再 重复 编译 同样 的 表达 式 的 效 这 很 低 ， 所 以 Perl 会 目 动 进行 简单 的 字符 串 检 查 ， 比 较 本 次 和 上 次 插值 的 
ZiR WREE, WEH ERWE. WRAN, WEEER. MA, IERTE Ey E 
尽 可 能 避免 了 相对 更 耗 时 的 编译 。 

这 样 完 竟 能 节省 多 少时 间 呢 ? 非常 多 。 举 例 来 说 ， 我 测试 了 第 303 页 的 $HttpUrL《〈 使 用 扩展 的 
$HostnameRegex) 的 三 种 预 处 理 方 式 。 设 计 的 性 能 测试 能 准确 体现 预 处 理 的 开销 《使 用 择 值 、 字 符 串 检 
a 以 及 其 他 后 台 任 务 ) ， 而 不 是 表达 式 应 用 的 整体 开销 ， 因 为 在 任何 情况 下 这 种 应 用 的 时 间 都 是 
一 样 的 。 

结果 非常 有 意思 。 我 运行 了 没有 插值 的 版 本 (整个 正则 表达 式 痢 人 硬 编 码 在 ”my/.../ 中 ， ， 用 它 作 为 比较 
的 基础 。 如 果 正 则 表达 式 每 轮 循环 不 会 改变 ， 比 较 并 插值 大 概 需要 25 倍 的 时 间 。 完 整 的 预 处 理 〈 每 轮 循环 
都 要 重新 编译 ) 大 概 需要 1 000 倍 的 时 间 ， 这 数字 真 惊人 ! 

应 用 到 实际 场合 瓯 会 发 现 ， 完 整 的 预 处 理 即 使 比 静态 正则 文字 预 处 理 要 慢 1 000 倍 ， 在 我 的 机 器 上 也 只 
需要 大 约 0.00026 秒 (测试 的 速度 是 每 秒 3 _ 846 次， 相反， 静态 正则 文字 预 处 理 的 速度 是 每 秒 370 万 次 ) 。 当 
然 ， 不 使 用 插值 能 够 节省 的 时 间 非 党 可 观 ， 不 进行 重 编译 节省 的 时 间 显 然 也 很 可 观 。 下 面 几 节 ， 我 们 会 考 
察 如 何在 更 多 情况 下 使 用 这 些 技巧 。 

表示 “一 次 性 编译 ”的 /o 修 饰 符 

徐 单 地 说 ， 如 果 正 则 文字 运算 元 中 使 用 了 /o 修 饰 符 ， 它 融会 只 会 检查 和 编译 一 次 ， 而 无 论 是 合 包含 
值 。 如 末 没 有 插值 ， 添 加 /o 不 会 有 任何 改变 ， 因 为 没有 插值 的 表达 陈 总 是 会 目 动 缓存 。 但 如 果 使 用 了 插 
值 ， 程 序 执行 第 一 次 过 到 正则 文学 时 ， 会 进行 正常 的 完整 的 预 处 理 ， 但 因为 /0 的 存在 ， 内 在 状态 会 存储 下 
来 。 如 果 之 后 义 过 到 这 个 正则 运算 元 ， 束 会 直接 调用 绥 存 。 

下 和 面 这 个 例子 之 前 也 出 现 过 ， 只 是 现在 添加 了 /o: 


[| 日 日 Linux[| || www.linuxidc.com [] [] 








my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


while (<LOGFILE>) { 
if (m/*Stoday:/io) { 


这 个 表达 式 要 快 得 多 ， 因 为 从 第 二 次 开始 的 每 轮 循环 中 ， 正 则 表达 式 都 色 略 了 $today。 不 需要 插 但， 
也 不 需要 预 处 理 和 重新 编译 正则 表达 式 ， 能 够 季 和 省 大 量 的 时 间 ， 而 这 是 Perl 无 法 目 动 完成 的 ， 因 为 使 用 了 
变量 插值 ，$today 可 能 会 变化 ， 所 以 为 了 安全 ，Perl 必 须 每 次 都 检查 。 使 用 /o 就 告诉 Perl， 在 第 一 次 预 处 理 
和 编 详 完成 之 后 “锁定 ”这 个 表达 式 。 因 为 我 们 知道 ， 插 值 变量 是 不 变 的 ， 即 使 变化 了 ， 也 不 希望 使 用 新 
全， 上 所 以 这 样 做 完全 没 问题 。 

/0 的 潜在 “陷阱 ” 

在 使 用 /o 时 ， 有 个 重要 的 “陷阱 ?必须 要 注意 。 例 如 下 面 这 个 函数 : 

sub CheckLogfileForToday ( ) 


my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 





while (<LOGFILE>) { 
if (m/*Stoday:/io) { # ERR) 


eeeeee 


} 
} 

记 住 ，/o 表 示 正 则 运算 元 只 需要 编译 一 次 。 第 一 次 调用 CheckLogfileForToday ©) 时 ， 人 代表 当 天 日 期 的 
正则 运算 元 就 锁定 在 其 中 。 如 果 过 了 一 段 时 间 再 次 调用 这 个 函数 ， 即 使 $today 变 化 了 ， 也 不 会 重新 检查 ; 
在 程序 执行 过 程 中 ， 每 次 使 用 的 都 是 最 开始 锁定 在 其 中 的 正则 表达 式 。 

这 个 问题 很 严重 ， 不 过 下 一 节 中 ，regex 对 象 提供 了 两 全 其 美的 解决 办 法 。 

用 regex 对 象 提高 效率 

迄今 为 止 ， 我 们 看 到 的 所 有 关于 预 处 理 的 讨论 都 适用 于 正则 文字 。 其 目的 在 于 花 尽 可 能 少 的 工夫 获得 
编译 好 的 正则 表达 式 。 达 到 此 目的 的 男 一 个 办 法 是 使 用 regex 对 象 ， 把 编译 好 的 正则 表达 式 封 装 在 变量 内 部 
供 程 序 使 用 。 可 以 使 用 gr/.../ 创 建 regex 对 象 (= 303) 。 

下 面 是 使 用 regex 对 象 的 例子 : 

sub CheckLogfileForToday () 


{ 
my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 








my $RegexObj = qr/*Stoday:/i; # 每 次 调用 编译 一 次 


while (<LOGFILE>) { 
if ($ =~ §$RegexObj) { 
} 
} 
} 

每 调用 一 次 函数 ， 束 会 创建 一 个 新 的 regex 对 象 ， 但 是 之 后 它 只 是 直接 用 于 log 文 件 的 每 一 行 。 如 来 
regex 对 象 用 做 运算 元 ， 它 不 会 进行 前 面 介绍 的 任何 预 处 理 。 预 处 理 是 在 regex 对 象 创建 而 不 是 使 用 时 进行 
的 。 可 以 把 regex 对 象 想 象 为 “ 目 动 设 定 的 正则 缓存 ”， 这 个 编译 好 的 表达 式 可 以 在 任何 地 方 使 用 。 

这 个 办 法 兼 具 了 两 方面 的 优点 : 它 效率 高 ， 因 为 只 有 在 每 次 函数 调用 《而 不 是 log 文 件 的 每 一 行 ) 时 才 


AWE, (Foe, SAR E/N IS AA, IHS SHCA Heck tle Four inu de COR i 





需要 和 弄 清楚 的 是 ， 这 个 例子 中 出 现 了 两 个 正则 运算 元 。 正 则 运算 元 qr/.…/ 并 不 是 一 个 regex 对 象 ， 但 能 
从 接收 的 正则 文字 创建 regex 对 象 。 然 后 这 个 对 象 用 作 循 坏 中 match 运算 人 符 = 一 的 运算 元 。 

regex 对 象 配 合 my/.../ 

这 段 程序 : 

if ($_=~$RegexObj) { 

也 可 以 这 样 写 : 

if (m/$RegexObj/) { 

此 时 已 经 不 是 普通 的 正则 文字 了 ， 人 尽管 看 上 去 没有 区 别 。“ 正 则 文学 ”的 内 容 束 是 regex TR, ERA 
使 用 regex ”对 象 一 样 。 这 种 做 法 的 好 处 在 于 : m/.../ 更 为 常见 ， 更 容易 使 用 。 也 不 用 明确 指定 目标 字符 串 
$_， 方 便 与 其 他 使 用 同样 献 认 变 量 的 运算 从 结合 。 最 后 一 个 原因 是 ， 这 样 我 们 能 够 对 regex 对 象 使 用 /g。 

/0 配合 qr/.../ 

/0 修饰 符 可 以 配合 qr.../， 但 在 这 里 你 肯定 不 希望 如 此 。 吏 像 用 /o 配 合 其 他 任何 正则 运算 符 一 样 ，qr/ 
.../o 在 第 一 次 使 用 正则 表达 陈 时 就 会 进行 锁定 ， 所 以 如 果 这 样 写 ， 无 论 $today 如 何 变化 ， 每 次 调用 这 个 函数 
$RegexObj 使 用 的 都 是 同样 的 regex 对 象 。 这 与 第 352 页 的 m/.../o 的 问题 一 样 。 

UK SEER UA RIK THE Ta ES 

正则 运算 符 的 默认 表达 式 C308) 可 以 提高 效率 ， 尽 管 使 用 regex 对 象 可 能 更 划算 。 不 过 我 还 是 会 简 
要 介绍 一 番 。 例 如 : 

sub CheckLogfileForToday ( ) 


my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>) [(localtime) [6]]; 


# 直到 匹配 为 止 ， HERNEN 


"Suns" =< m/“Stodays/i. or 
"Mon:" =~ m/*Stoday:/i or 
"Tue:" =~ m/*Stoday:/i or 
"Wed:" =~ m/*Stoday:/i or 
"Thus" = m/“Strodays/1. or 
"Fri =< m/“Stodays/i. or 
"Sats" =~ m/“Stodays/is 


while (<LOGFILE>) { 
if (m//) { + 使 用 默认 的 表达 式 


eeeeee 


1 FERVOR ETE, A AULA MIA aA ERUUE, ArUStodayi A ZEA RIAN 
人 码 。 你 已 经 看 到 ， 这 相当 不 美观 ， 所 以 我 不 推荐 这 么 做 。 


理解 “原文 ?副本 


Understanding the"Pre-Match"Copy 

在 匹配 和 蔡 换 时 ，Perl 有 时 必须 动用 额外 的 空间 和 时 间 来 保存 目标 字符 串 在 匹配 之 前 的 副本 。 我 们 会 
看 到 ， 有 时 这 个 副本 会 用 于 文 持 重 要 特性 ， 有 时 则 不 会 。 应 该 尽量 避免 不 会 用 到 的 副本 ， 捉 融 效 率 ， 尤 其 
是 在 目标 字符 串 很 长 ， 或 者 速度 非 营 重要 的 情况 下 更 站 如 此。 

下 一 节 我 们 会 讲解 何 时 以 及 为 什么 Perl 可 能 会 保存 目标 字符 串 的 原文 副本 ， 什 么 时 候 用 到 副本 ， 以 及 
在 效率 极 病 重 要 时 ， 如 何 取消 这 个 副本 来 提高 效率 。 

通过 原文 副本 文 持 $1、$& $h $+... 


对 于 match 或 者 substitution 操 作 的 目标 字符 串 ，BEr 估 钴 成 i 典 详 剧本 | wMaslinyxidegome L 





变量 (= 299) 。 每 次 匹配 完成 之 后 ，Perl 不 会 实际 生成 这 些 变量 ， 因 为 许多 变量 〈 还 有 可 能 是 所 有 ) 根本 
不 会 补 程 订 用 到 。 相 反 ，Perl 内 是 保存 原始 字符 串 的 副本 ， 记 住 各 种 匹配 友 生 在 原来 文本 中 的 位 置 ， 在 使 
用 $1 之 类 释 量 时 通过 位 置 来 引用 。 这 种 办 法 不 错 ， 工 作 量 小 ， 因 为 多 数 情 况 下 都 不 会 用 到 某 些 甚至 全 部 的 
匹配 后 的 变量 。 这 种 “延迟 求 值 (azy evaluation) ”能 避免 许多 不 必要 的 工作 。 

尽管 延迟 创建 $1 之 疾 的 变量 能 够 节省 工作 量 ， 但 保存 目标 字符 串 的 副本 仍然 需要 成 本 。 而 这 是 必要 的 
四? 为 什么 不 能 直接 使 用 原来 的 文本 ? 请 参考 : 

$Subject=~s/\(?:Re:\s * )+//; 

这 样 ，$& 正 确 地 引用 了 $Subject 中 删除 的 文本 ， 但 因为 它 已 经 从 $Subject 中 删除 ， 在 后 面 用 到 $& 时 ， 
Perl 不 能 从 $Subject 中 引用 这 段 文 本 。 下 面 的 代码 情况 相同 : 


if ($Subject =~ m/*SPAM:(.+)/i) { 
SSubject = "-- spam subject removed --"; 
SSpamCount{$1}++; 








} 


引用 $1 时 ， 原 来 的 $Subject 已 经 删除 了 。 上 所 以 ，Perl 必 须 傈 存 原文 副本 。 

原文 副本 并 非 时 时 必须 

在 实践 中 ， 原 文 副 本 的 主要 “用 户 ” 是 $1、$2、$3 之 类 的 变量 。 但 是 如 果 正 则 表达 式 不 包含 捕获 型 括号 
WE? 那样 束 不 必 担 心 $1 之 类 了 ， 所 以 完全 不 必 考 虑 如 何 支 持 它 们 。 所 以 至 少 ， 不 包含 捕获 型 括号 的 正则 表 
达 式 可 以 不 必 保 存 找 贝 ? 答案 是 未 必 。 

不 宜 使 用 的 变量 : = 、$& 和 $ 

5 、$&、$' 这 三 个 变量 与 捕获 型 括号 无 关 。 它 们 分 别 对 应 到 匹配 文本 之 前 的 部 分 ， 匹 配 文本 和 匹配 
之 后 的 部 分 ， 其 实 可 以 应 用 于 每 一 次 match 和 substitution。Perl 不 能 预先 知道 某 个 匹配 中 是 否 会 用 到 这 些 变 
量 ， 所 以 每 次 都 必须 保存 原文 副本 。 

听 起 来 ， 似 乎 没有 办 法 省 略 副 本 ， 但 是 Perl 足够 聪明 ， 它 能 够 认识 到 ， 如 果 这 些 变 量 不 会 出 现在 程序 
中 ， 就 根本 没 必 要 〈 甚 至 在 任何 可 能 用 到 的 library 之 中 ) 保存 副本 来 提供 支持 。 所 以 ， 如 果 没 有 用 到 捕获 
型 括号 ， 再 避免 出 现 、$& 和 就 能 省 略 原文 副本 一 这 是 很 棒 的 优化 ! 只 要 在 程序 中 的 任何 一 处 用 到 了 3 
、$& 和 ”三 者 之 一 ， 整 个 优化 即 告 失效 。 这 可 不 够 意思 ! 所 以 ， 我 认为 这 些 变 量 是 “不 宜 使 用 
(naughty) ”的 。 

原文 副本 的 代价 有 多 高 

我 进行 了 简单 的 性 能 测试 ， 对 Perl 源 代码 的 130 000 行 C 程 序 中 的 每 一 行 检 查 m/c/。 这 个 性 能 测试 仅仅 检 
测 哪 一 行 出 现 了 字符 ‘cC?。 测 试 的 目的 是 衡量 原文 副本 的 影响 。 我 用 两 种 方法 进行 测试 一 种 肯定 没有 用 到 
原文 副本 ， 一 种 肯定 用 到 了 。 因 此 ， 唯 一 的 区 别 就 在 于 保存 副本 的 开销 。 

保存 原文 副本 的 程序 所 用 的 时 间 要 长 40%。 这 代表 了 “平均 最 兰 情 况 ”， 这 样 说 是 因为 性 能 测试 并 没有 
进行 什么 实质 性 的 操作 ， 人 否则 二 者 之 间 的 时 间 相 对 比例 会 减 小 〈 甚 至 显得 微不足道 ) 。 

另 一 方面 ， 在 真正 的 最 坏 情况 下 ， 人 额外 副本 可 能 真 的 占据 非常 重要 的 比重 。 我 对 同样 的 数据 运行 同样 
的 程序 ， 但 是 这 次 将 所 有 超过 3.5MB 的 数据 都 放 在 一 行 中 ， 而 不 是 长 度 合适 的 130 000 行 。 这 样 束 能 比较 单 
次 匹配 的 相对 表现 。 不 使 用 原文 副本 的 匹配 几乎 是 立刻 就 得 到 了 结果 ， 因 为 第 一 个 汉字 符 离 开头 不 远 ， 匹 
配 之 后 程序 惑 运行 结束 。 而 使 用 原文 副本 的 程序 运行 原理 甜 不 多 ， 只 是 它 会 首先 拷贝 整个 字符 串 。 它 所 用 
的 时 间 大 约 是 前 者 的 7 000 倍 。 因 此 我 们 知道 ， 避 免 使 用 某 些 结构 能 够 提高 效率 。 

避免 使 用 原文 副本 

如 果 Perl 能 够 领会 程序 员 的 意图 ， 只 在 需要 的 情况 下 保存 副本 ， 当 然 很 好 。 但 请 记 住 ， 这 些 副 本 并 不 
是 “败笔 一 一 Perl 在 幕后 处 理 这 些 繁琐 事务 是 我 们 选择 Perl， 而 不 是 C 或 者 汇编 语言 的 原因 。 事 实 上 ，Perl 最 
初 只 是 为 了 把 用 户 从 繁杂 的 机 制 中 解放 出 来 ， 这 样 他 们 只 需要 关注 问题 的 解决 方案 就 好 了 了 。 

永远 不 要 使 用 不 宜 使 用 的 变量 。 同 样 ， 尽 可 能 避免 额外 的 工作 也 是 不 错 的 。 首 先 想 到 的 束 是 ， 永 远 不 
要 在 代码 中 使 用 $" 、$& 和 5”。 通 常 ，$& 很 容易 消除 一 一 把 正则 表达 式 包 围 在 一 个 捕获 型 括号 内 ， 然 后 使 
用 $1 ” 即 可 。 举 例 来 说 , 把 HTML tag 转换 为 小 号 时 ， 不 使 用 <\w+>AL$&AE/g， 而 使 用 My/ (< 
\w+>) AL$1\E/g. 


如 果 保存 了 原始 目标 字符 串 ， 就 可 以 很 容易 地 模 扫 | 人 和 [9 Llink AL ed uid eros L 
































的 规则 来 模拟 : 


变量 模拟 方式 

3" substr (target, 0, $-[0]) 

9 & substr (target, $-[0], $+[0]-$-[0]) 
3! substr (target, $+[0]) 


m 因为 @- 和 @+ (302) 保存 的 是 原始 目标 字符 串 中 的 位 置 ， 而 不 是 确切 的 文本 ， 使 用 它们 不 需要 担心 效 
率 问 题 。 

我 还 给 出 了 $& 的 模拟 。 相 对 使 用 捕获 型 括号 和 $1 的 办 法 ， 这 可 能 是 一 个 更 好 的 办 法 ， 这 样 完全 不 必 使 
用 任何 捕获 型 括号 。 请 记 住 ， 避 免 使 用 $& 之 类 变量 的 目的 就 在 于 ， 如 果 表达 式 中 没有 出 现 捕 获 型 括号 ， 要 
避免 保存 原始 副本 。 如 果 修 改 程序 ， 去 掉 $&， 再 对 每 个 匹配 都 增加 捕获 型 括号 ， 就 不 会 节省 任何 时 间 。 

不 要 使 用 不 宜 使 用 的 模块 。 当 然 ， 避 免 ?、$&、5$ 也 意味 着 避免 使 用 调用 它们 的 模块 。Perl 的 核心 
模块 中 ， 除 English 之 外 都 没有 使 用 它们 。 如 果 你 希望 使 用 English 模 块 ， 可 以 这 样 ; 

use English'-no_match_vars'; 

这 样 就 没有 问题 了 。 如 果 你 从 CPAN 或 者 其 他 地 方 下 载 了 模块 ， 你 可 能 需要 检查 一 番 ， 看 看 它们 是 否 
使 用 了 这 些 变量 。 请 参考 下 一 页 的 补充 内 容 ， 里 面 有 些 诀 容 ， 告 诉 你 如 何 判断 程序 是 否 用 到 了 这 些 变量 。 
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如 何 检查 代码 是 否 包 含 S& 


判断 程序 是 否 使 用 了 不 宜 使 用 的 变量 引 、$g 和 5"， 并 不 是 件 容 易 的 事情 ,尤其 使 用 库 函 
数 时 更 是 如 此 ， 但 还 是 有 几 个 办 法 来 判断 。 最 简单 的 是 。， 如 果 你 的 二 进 制 程序 在 编译 
时 指定 了 -DDEBUGGING 参数 ， 就 可 以 使 用 -c 和 -Mre=debug 参数 (7361), WR $T H 
的 结 昨 ,找到 和 包 念 Enabling $', $&g 和 S$' support AA ‘Omitting S$',$S&fo$' support 
的 那 一 行 。 如 果 见 到 前 面 的 文字 ， 就 表示 使 用 了 这 些 变量 。 
另 一 种 可 能 (但 不 太 现 实 ) 的 情况 是 ,程序 在 eval 语 白 中 使 用 了 这 些 变 量 ， 如 果 没 
有 实际 运行 ，Perl 不 知道 的 是 否 使 用 了 这 些 变 量 。 解 决 办 法 之 一 就 是 安装 CPAN 
(http:/Aoww.cpan.org) 的 Devel:SawAmpersand Package; 
END { 
require Devel::SawAmpersand; 
if (Devel::SawAmpersand::sawampersand) { 
print "Naughty variable was used!\n"; 
| } 
5 Devel: :SawAmpersand 一 起 的 还 有 Devel::FindAmpersand, 这 个 package 能 够 告 
诉 用 户 有 问题 的 代码 的 位 置 。 不 幸 的 是 ， 对 最 新 版 本 的 Perl， 它 不 能 保证 完全 正确 。 
这 两 个 package 的 安装 都 不 简单 ， 所 以 要 做 的 事 没准 很 多 (请 参考 https/reger.info/t 
找 可 能 的 更 新 )。 


用 坦 找 性 能 损失 的 办 法 找 出 问题 代码 的 办 法 也 值得 一 看 : 
use Time::HiRes; 
sub CheckNaughtiness () 
{ 
my $text = 'x' x 10 000; # 创建 一 定量 的 数据 


# 计算 纯 循环 的 开销 


my Sstart = Time: :HiRes::time() ; 
for (my $i = O07 $i < 5 000; Şi++) { } 
my Soverhead = Time::HiRes::time() - $start; 


# 计算 同样 次 数 匹配 的 开销 

Sstart = Time::HiRes::time(); 

for (my $i = 0; $i < 5 000; $i++) { $text =~ m/*/ } 
my $delta = Time::HiRes::time() - $start; 


# +A 
printf "It seems your code is #s (overhead=%3.2f, delta=%.2f)\n", 
($delta > Soverhead*5) ? "naughty" : "clean", Soverhead, $delta; 
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Study P 2 


The Study Function 
与 优化 正则 表达 式 本 时 不同，study〔...) 优化 了 对 特定 字符 串 的 东 些 检索 。 一 个 字符 串 在 study 之 
后 ， 应 用 到 它 的 〈“ 一 个 或 多 个 ) 正则 表达 式 可 以 从 缓存 的 分 析 数 据 中 受 荔 。 一 般 是 这 样 使 用 的 : 
while (<>) 


{ 








study (SR) ; # 匹配 之 前 Study 默认 的 目标 字符 串 $ _ 
if (m/regex 1/) { = } 
if (m/regex 2/) { } 
if (m/regex 3/) { =} 
if (m/regex 4/) { } 


} 


study ”的 作用 很 简单 ， 但 是 理解 它 什 么 情况 下 有 价值 却 不 简单 。 它 不 会 影响 到 程序 的 任何 值 和 任何 结 
n a Perl 会 使 用 更 多 的 内 存 ， 总 的 执行 时 间 可 能 会 增加 ， 保 持 不 变 ， 或 者 减少 〈 这 是 我 
门 预 期 的 ) 。 

study 一 个 字符 串 时 ，Perl 会 分 配 时 间 和 内 存 来 记录 字符 串 中 的 一 系列 位 置 〈 在 大 多 数 系统 中 ， 需 要 的 
内 存 是 字符 串 大 小 的 4 倍 ) 。 在 字符 串 修 改 之 前 ， 针 对 此 字符 串 的 每 次 匹配 都 可 以 从 中 受益 。 对 字符 串 的 任 
何 修改 都 会 导致 study 数 据 的 失效 ， 相 当 于 study 另 一 个 字符 串 。 

Study 能 给 目标 字符 串 提 供 的 帮助 ， 很 大 程度 上 取决 于 用 来 匹配 的 正则 表达 式 ， 以 及 Perl 能 够 使 用 的 优 
化 。 例 如 用 my/foo/ 检 索 文 本 ， 如 末 使 用 J 了 study， 速度 会 提升 很 多 《如 果 字 符 串 更 长 ， 甚 至 可 能 提高 10 000 
倍 ) 。 但 是 ， 如 果 使 用 了 Ai， 残 不 会 有 这 种 效果 ， 因 为 /i 不 会 利用 study 的 结果 《和 其 他 优化 ) 。 

不 应 该 使 用 study 的 情况 

e 如 果 只 使 用 ii， 或 是 所 有 正则 文字 都 受 ' C2 i) | 或 1 O i; ...) | 作用， 就 不 应 该 对 字符 串 使 用 
study， 因 为 它们 不 能 从 study 中 受益 。 

e 如 果 目 标 字 符 串 很 短 ， 也 不 应 该 使 用 ”study。 因 为 此 时 ， 正 常 的 固定 字符 串 识别 优化 (二 247) 已 经 
足够 了 了 。 那 么 “ 短 ? 完 竟 如 何 界 定 呢 ? 字符 串 的 长 度 没 有 确切 的 标准 ， 所 以 共 体 来 说 ， 只 有 进行 性 能 测试 才 
能 判 朵 study 是 含有 益 。 不 过 权衡 利 产 ， 我 通 单 不 使 用 study， 除 非 字 符 串 的 长 度 为 在 干 KB。 

如 有 果 你 只 希望 在 修改 之 前 ， 或 是 study 不 同 的 字符 串 之 前 ， 对 目标 字符 串 进 行 少数 几 次 匹配 ， 请 不 要 使 
H study。 如 果 要 获得 真正 的 性 能 提升 ， 必 须 是 多 次 匹配 节省 下 来 的 时 间 长 于 study 的 时 间 。 如 果 匹 配 次 数 
较 少 ， 花 在 study 呈 上 的 时 间 抵 不 上 节省 的 时 间 ， 得 不 偿 失 。 

只 对 期 望 使 用 包 舍 “独立 出 来 的 ”文字 C255) 的 正则 表达 式 搜索 的 字符 串 使 用 study。 如 果 不 知 道 匹 
配 中 必须 出 现 的 字符 ，study WRN EAH (看 了 这 几 和 条， 也 许 你 会 认为 ，study 对 index 函 数 有 益 ， 但 事实 
并 非 如 此 ) 。 

什么 时 候 使 用 study 

最 适合 使 用 study 的 情况 瓯 是 ， 目 标 字 符 串 很 长 ， 在 修改 之 前 会 进行 许多 次 匹配 。 一 个 窗 音 的 例子 就 是 
我 在 写作 本 书 时 所 用 的 过 小 占 。 我 用 目 己 的 标记 法 写 稳 ， 然 后 用 过 小 器 转换 为 SGML (再 转换 为 troff， 再 
转换 为 PostScript) 。 经 过 过 波 需 内 部 ， 一 整 章 变 为 一 个 大 字符 串 《〈 人 例如， 本章 的 大 小 为 475KB) 。 在 退出 
之 前 进行 多 项 检查 来 保证 不 会 漏 过 错误 的 标记 。 这 些 检 奏 不 会 修改 字符 串 ， 它 们 通 钊 得 找 固 定 长 度 的 字符 
串 ， 所 以 它们 很 适合 于 study。 




















性 能 测试 


Benchmarking 

如 果 你 真 的 关心 效率 ， 最 好 的 办 法 就 是 进行 性 能 测试 。Perl HEA Benchmark 模 块 提供 了 详细 的 文档 
("perldoc Benchmark") 。 可 能 是 习惯 使 然 ， 我 更 喜欢 从 目 己 动手 写 性 能 测试 : 

use Time::HiRes'time'; 


我 把 希望 测试 的 内 容 简 单 包装 成 ， O O O Linuxi O www.linuxide.com [] [] 


my Sstart = time; 
my $delta = time - Sstart; 
printf "took %.1f seconds\n", Sdelta; 


PERE WUT He el LTE, WAR PERE ET See YF, SANE IN TA] IEA REM, Ay fee oh 
MAA BEB, ay eZ awl Ns Bo). ER 6 半 有 详细 的 讲解 (二 232) 。 找 到 正确 的 测试 方法 
可 能 得 化 些 时 间 ， 但 是 结 来 可 能 非常 有 价值 ， 也 很 值得 。 


正则 表达 式 调 试 信息 


Regex Debugging Information 

Perl 提 供 了 数量 众多 的 优化 措施 ， 期 望 能 够 尽 可 能 快 地 找到 匹配 ， 第 6 草 的 “常见 优化 措施 ”( 号 204) 介 
绍 了 基础 的 措施 ， 但 还 有 许多 其 他 的 措施 。 大 多 数 优 化 只 能 应 用 于 专门 的 情况 ， 所 以 特定 正则 表达 式 只 能 
从 其 中 的 菜 一 些 (甚至 是 没有 ) Ro 

Perl 的 调试 模式 (debugging mode) 能 提供 优化 的 信息 。 在 正则 表达 式 第 一 次 编译 时 ，Perl 会 选择 这 个 
正则 表达 陈 所 使 用 的 优化 措施 ， 而 调试 模式 会 院 示 其 中 的 一 部 分 。 调 试 模 式 同 样 可 以 告诉 我 们 引擎 是 如 何 
应 用 表达 式 的 。 仔 细 分 析 这 些 调试 信息 不 属于 本 书 的 范围 ， 但 我 会 在 这 里 给 出 简要 介绍 。 

在 程序 中 可 以 通过 use re'debug'; 来 显示 调试 信息 ， 用 no re'debug'; 来 关 财 《上 文 曾 出 现 过 编译 指示 
use re， 根 据 不 同 的 参数 ， 局 用 或 禁用 插值 变量 中 的 内 骸 代 人 码 写 337) 。 

如 末 和 希望 在 整个 脚本 中 局 用 此 功能 ， 可 以 使 用 命令 行 参 数 -Mre=debug。 这 很 适合 检查 单个 的 正则 表达 
式 的 编译 方法 。 下 面 是 一 个 例子 (只 保留 了 相关 的 行 〉: 


% perl -cw -Mre=debug -e 'm/^Subject: (.*)/' 
Compiling REx *“Subject: (.«*)' 





Oy 


+ rarest char j at 3 
= Le BOL(Z) 
= 2: EXACT <Subject: >(6) 
~ 12: END(0) 
anchored ‘Subject: ' at 0 (checking anchored) anchored(BOL) minlen 


| Omitting $' S& $' support. 


在 0 处 从 shell 提 示 符 启动 perl， 使 用 命令 行 参 数 -c《〈 意 思 是 检查 脚本 ， 而 不 是 确切 执行 它 ) ，-w CUR 
Perl 对 代码 存 有 疑问 ， 就 会 发 出 警报 ) ， 以 及 -Mre=debug 启 用 调试 。-e 表 示 下 面 的 参数 ‘m/^Subject: - C. 
x) /是 一 段 Penl 代 码 ， 需 要 运行 或 者 检查 。 

: 行 报告 表 达 式 固定 长 度 的 字符 串 中 “出 现 频 率 最 低 ” 的 字符 《由 Perl 猜测 ) 。Perl 根据 这 一 点 进行 菜 些 
优化 《例如 预 得 所 需 字 符 / 子 串 嘻 245) 。 

第 z 到 w 行 表示 Pen 编译 好 的 正则 表达 式 。 因 为 篇 幅 的 原因 ， 我 们 在 这 里 不 会 花 太 多 的 工夫 。 不 过 ， 即 
使 是 随便 看 看 ， 第 = 行 也 个 难 理解 。 

第 ... 行 对 应 大 多 数 行为 。 可 能 显示 的 信息 包括 : 

Anchored'string'at offset 

它 表 示 匹 配 上 必须 包含 某 个 字符 串 ， 此 字符 串 在 匹配 中 的 偶 移 值 为 ” offset。 如 果 $ 紧 跟 在 'String' 之 后 ， 那 
ZA string VL ACG BW UR o 

floating'string'at from..to 

它 表 示 匹 配 必 须 包 含 某 个 字符 串 ， 此 字符 串 在 匹配 中 处 于 从 from (Free) 到 to《〈 结 束 ) 中 的 任意 位 
Ho WRSAERZ String’ 2 Ja, string VLA as ICR 


stclass'list' 


它 表 示 匹 配 可 能 的 开始 字符 。 O O UU Linuxi U www.linuxidc.com [|] L 











anchored(MBOL),anchored(BOL),anchored(SBOL) 
说 明 表 达 式 以 ^| 开头 。MBOL 说 明 使 用 了 /mm 修饰 符 ，BOL 和 SBOL 表 示 没 有 使 用 (BOL 和 SBOL 的 区 
串 在 现代 Penl 中 没有 意义 。SBOL 与 $ 大 变量 有 关 ， 而 此 变量 已 被 废 痉 了 ) 。 


anchored(GPOS) 
说 明正 则 表达 式 以 NG) 开头 。 
implicit 


说 明 anchored (MBOL) 是 由 Perl 隐 式 添加 的 ， 因 为 正则 表达 式 以 .x | 开头 。minlen length 

代表 匹配 成 功 的 最 小 长 度 。 

with eval 

说 明 表 达 式 包含 O {...}) | 或 是 CPP Lp |. 

第 | 行 与 正则 表达 式 无 关 ， 只 有 当 二 进 制 代码 中 的 编译 启用 了 -DDEBUGGING 时 才 会 出 现 。 如 果 启用 ， 
在 载 入 整个 程序 之 后 ，Perl 会 报告 是 含 司 用 了 对 $& 等 变量 的 文 持 〈 号 356) 。 

运行 时 调试 信息 

我 们 知道 如 何 利 用 内 般 代 人 码 获 得 匹配 的 运行 信息 〈 嗓 331) ， 但 是 Perl 的 正则 表达 式 调 试 可 以 提供 更 
多 的 信息 。 如 果 去 挥 表示 “ 仪 编译 ”的 -c 选 项 ，Perl 会 提供 更 多 关于 匹配 运行 细 市 的 信息 。 

出 现 “Match rejected by optimizer,，” 表 示 某 种 优化 措施 让 传动 装置 认识 到 ， 这 个 正则 表达 式 永 远 无 法 在 
目标 字符 串 中 匹配 ， 所 以 会 忽略 任何 答 试 ， 下 面 是 一 个 例子 : 

% perl -w -Mre=debug -e '"this is a test" =~ m/*Subject:/;' 








Did not find anchored substr 'Subject:'? 
Match rejected by optimizer 


Re FAS iia, FP De Sra H SE eA iia TAN ABR A pe PEE N 
表达 式 。 例 如 : 





% perl -w -Mre=debug -e 'use warnings' 
. 大量 调试 信息 ... 

它 没 有 进行 任何 操作 ， 只 是 装载 1 ” ”warning 模块 ， 但 是 因为 这 个 模块 包含 正则 表达 式 ， 我 们 仍然 会 见 
到 许多 调试 信息 。 

显示 调试 信息 的 其 他 办 法 

我 已 经 提 到 ， 可 以 使 用 “use re'debug'; ”或 -Mre=debug 来 启用 正则 表达 式 的 调试 。 不 过 ， 如 果 把 所 有 的 
debug ####-N debugcolor, Mým MSCHFANSI 转 义 控制 字符 CANSI terminal control escape sequences) , 4 
nA a Sie chi, SEA Sy E. 

另 一 个 办 法 是 ， 如 果 Perl ”二进制 代码 在 编译 时 局 用 了 调试 文 持 ， 可 以 使 用 命令 行 参 数 -Dr 来 表示 - 
Mre=debug. 
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十 五 
25 ta 


Final Comments 

我 确信 目 己 已 经 陶醉 于 Perl 的 正则 表达 式 中 ， 本 章 的 开头 我 冒 提 到 ， 这 是 有 充分 理由 的 。Perl 之 父 
Larry Wall， 完 全 是 按照 常识 和 发 明 的 动力 (Mother of Invention) iy 是 的 ，Perl 的 正则 表达 式 实 现 也 
有 目 己 的 问题 ， 但 是 我 仍然 愿意 醇 心 于 Perl 正 则 语言 丰富 的 功能 ， 及 其 与 Perl 其 他 部 分 的 融合 。 

当然 ， 我 热情 而 不 下 有 目 Perl 并 没有 提供 东 些 我 希望 的 特性 。 ARNE AMEER KETE EZAN 
加 了 ， 我 会 继续 提出 要 求 ， 布 望 Perl 会 继续 添加 。 相 对 于 其 他 实现 ，Perl 最 急需 提供 的 功能 是 命名 捕获 
(138) 。 本 章 给 出 了 模拟 的 办 法 ， 但 还 存在 奢 干 限制 。 提 供 内 建 支持 是 最 好 的 解决 办 法 。 如 果 能 提供 字 
PARA CF 125) 也 很 好 ， 昌 然 目 前 可 以 费 点 周折 用 顺序 环视 来 模拟 C126) 。 

然后 是 占有 优先 量词 (142) 。Perl 的 固化 分 组 提供 了 更 多 的 完整 功能 ， a en 
量词 的 解法 更 清楚 更 美观 。 所 以 ， 两 种 办 法 我 都 喜欢 。 事 实 上 ， 还 有 两 个 我 喜欢 两 个 相关 结构 ， 目 前 还 
有 任何 流派 提供 。 其 中 之 一 是 "cut" 操 作 ， 或 者 叫 \v| ， 它 会 立刻 清除 当前 存在 的 所 有 保存 状态 (这 样 ， 
xtv 就 等 于 x++| 或 者 ”〈? >x+) | ) 。 另 一 个 结构 用 来 禁止 传动 装置 的 任何 进一步 的 操作 。 它 的 意 
思 是 “要 么 在 当前 路 径 找 到 一 个 匹配 ， 要 么 就 不 容许 任何 匹配 ， 没 有 其 他 可 能 。” 可 能 用 \V| 来 表示 比较 
Wa 

还 有 个 与 \V| 有 关 的 想法 ， 我 认为 在 传动 装置 中 添加 通用 的 钩子 功能 (general hooks) 是 有 用 的 ， 这 
样 第 335 页 的 程序 融 可 以 大 大 化 简 。 

最 后 要 说 的 是 ， 我 在 第 337 页 曾经 提 到 ， 在 内 花 代 码 插 值 到 正则 表达 式 时 ， 提 供 更 多 的 控制 是 非 堂 有 
用 的 。 

Perl 当 然 不 是 理想 的 正则 表达 es 但 它 蕊 很 接近 这 个 目标 ， 而 且 一 直 在 进步 。 
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第 8 童 Java 


Java 

目 2002 年 早期 友 布 的 Java 1.4.0 以 后 ，Java 残 内 建 了 正则 表达 陈 包 ，javautilregex， 它 的 API 坚 不 复杂 
(可 以 称 得 上 简单 ) ， 提 供 了 强大 而 有 创意 的 功能 。 对 Unicode 的 支持 很 棱 ， 文 档 很 清晰 ， 运 行 速 度 也 很 
快 。 它 能 够 用 来 匹配 CharSequence 对 象 ， 所 以 使 用 起 来 非常 方便 。 

sjava.util.regex 一 经 发 布 就 给 人 留 下 了 深刻 印象 。 它 的 功能 、 速 度 和 正确 性 都 达到 了 非常 高 的 水 平 ， 尤 
其 是 对 初次 发 布 的 软件 来 说 ， 更 是 如 此 。Java 1.4 的 最 终 版 本 是 1.4.2。 写 作 本 书 时 ，Java 1.5.0〈 也 叫 Java 
5.0) 已 经 发 布 ， 而 Java 1.6.0〈 也 叫 Java 6.0) 已 经 发 布 了 第 二 个 beta 版 本 。 本 书 针对 的 是 Java 1.5.0， 不 过 我 
会 在 合适 的 时 候 提 到 它 与 Java 1.4.2 或 Java 1.6.0 之 间 的 重要 差 寞 (这 些 到 寞 的 忌 结 在 本 革 林 尾 信 401) CE 
1) 。 

与 之 六 各 章 的 联系 

在 阅读 本 章 之 前 ， 我 必须 说 明 ， 这 一 章 不 会 重复 第 1 章 到 第 6 章 介 绍 的 所 有 和 知识。 有些 只 关心 Java 的 该 
者 可 能 会 直接 从 这 和 章 开 始 疯 读 ， 我 希望 他 们 不 要 错过 前 言 和 开头 几 章 的 内 容 : 第 1、2、3 半 介 绍 了 正则 表 
达 式 的 基本 概念 、 特 性 和 技巧 ， 第 4、5、6 章 包 含 了 理解 正则 表达 式 的 关键 知识 ， 它 们 可 以 直接 应 用 到 
java.util.regex 中 。 开 头 几 章 讲 解 的 重要 概念 包括 NEFA 引 人 擎 的 工作 原理 、 匹 配 优先 性 、 回 弯 和 效率 。 

表 8-1: 方法 名 索引 〈 按 字母 、 页 码 排序 ) 











380 appendReplacement matcher 379 replaceFirst 

38] appendTail matcher (Matcher) 390 reguireEnd 

372 compile matcher (Pattern) 392 reset 

377 end pattern (Matcher) 395 SELL 

375 find pattern (Pattern) 377 start 

394 flags quote 394 text 

377 group QuoteReplacement |377 toMatcheResult 

377 groupCount region 393 toString (Matcher) 
388 hasAnchoringBounds regionEnd 394 toString (Pattern) 
387 hasTransparentBounds regionStart 388 useAnchoringBounds 
390 hitEnd replaceAll 393 usePattern 

376 lookingAt replaceAllRegion |387  useTransparentBounds 





这 张 表 格 供 简要 得 询 ， 详 细 的 API 讲 解 从 第 371 页 开始 。 

在 这 里 我 还 是 要 强调 ， 尽 管 第 367 页 的 表格 查阅 起 来 很 方便 ， 第 3 章 第 114 和 第 123 页 的 表格 也 是 如 此 ， 
但 本 书 的 目的 不 是 作为 参考 手册 ， 而 是 “掌握 ”正则 表达 式 的 详细 教程 。 前 面 儿 章 已 经 出 现 过 java.utilregex 
的 例子 Ce 81. 95, 98. 217, 235) ， 本 章 在 讲解 各 种 关 及 其 实际 应 用 时 会 给 出 更 多 的 例子 。 不 过 ， 首 先 
还 是 来 看 Java 文 持 的 正则 流派 ， 以 及 对 应 的 修饰 符 。 
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Java's Regex Flavor 

java.utilregex 使 用 传统 型 NFA， 所 以 第 4、5、6 章 介绍 的 丰 军 特性 都 适用 于 它 。 下 页 的 表 8-2 总 结 了 它 
的 元 字符 。 此 流派 的 某 些 方 面 已 经 发 生 了 变化 ， 原 因 是 各 种 匹配 模式 ， 风 配 模 式 的 局 用 通过 各 种 method 和 
factory “来 设 定 标志 位 ， 或 者 内 骨 在 表达 式 中 的 「 C? mods-mods) | 和 (? mods-mods: ...) | 修饰 符 。 
这 些 模式 在 第 368 页 的 表 8-3 中 有 列 出 。 下 面 是 对 表 8-2 的 说 明 : 

O 只 有 在 字符 组 内 部 ，\b 才 代表 退 格 字符 。 在 其 他 场合 ，\b 都 代表 单词 分 界 符 。 

表 中 给 出 的 是 “ 纯 (raw) ” 反 冬 线 ， 但 是 用 作 Java 正 则 表达 却 的 字符 串 时 必须 使 用 双 反 和 斜 线 。 例 如 ， 表 
中 的 “ni 在 Java 的 字符 串 中 必须 写作 “An”。 请 参考 “作为 正则 表达 式 的 字符 串 ”( 呈 101) 。 

\x# # 容 许 且 只 容许 出 现 两 位 十 六 进 制 数字 ， 所 以 i\xFCber | 匹配 iiiber’。 


表 8-2: java.util.regex 的 正则 流派 
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字符 缩 略 表示 法 


#115 (c) | \a [\b] \e \£ \n \r \t \Ooctal \x## \ut## \cchar 
字符 组 及 相关 结构 

#118 (c) 字 竺 组 : […] [^…] (TF ASROBHAS 125) 
119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
六 120 (c) 字符 组 缩 咯 表示 法 : \w \d \s \W \D \S 

#121 (c) Unicode 属性 和 区 块 : \p{Prop} \P{Prop} 

锁 点 及 其 他 零 长 度 断 言 

370 行 /字符 串 起 始 位 置 : ^ \A 

370 行 /字符 串 结束 位 置 : $ \z Z 

#370 当前 匹配 的 起 始 位 置 ; NG 

全 133 单词 分 界 符 ”: \b \B 

F133 环视 结构 (Peer) (21e) (?<=…) (?<!…) 
注释 及 模式 修饰 符 

F135 模式 修饰 符 : (2mods-mods) 容许 出 现 的 模式 : x d s m i u 
全 135 模式 修饰 范围 : (?mods-mods:…) 

#368 (c) 注释 : 从 # 到 行 末 (只 在 启用 时 有 效 ) ” 

#113 (c) 文字 文本 模式 : NONE 

分 组 及 捕获 

F137 捕获 要 桂林 了 (oj N \2-- 

& 137 LIEST: (22+) 

139 固化 分 组 : (2>) 

7139 多 选 结 构 : | 

他 141 匹配 优先 量词 : * +? {n} {n,} {x,y} 

F141 ZENA EA: *2 +2 22 {n}? {n,}? {x,y}? 
142 占有 优先 量词 : *+ ++ ?+ {n} t+ {n,}+ {x,y}+ 





(c) 


UHH E HAYA RAH AEA, Bll, '\WOOFCber, ULAc‘iiber’, '\u20AC, MRE. 

\Ooctal 要 求 开 头 为 0， 后 接 1 到 3 位 十 进 制 数字 。 

\cchar 是 区 分 大 小 写 的 ， 直 接 对 后 面 字符 的 十 进 制 编码 进行 异 或 〈xoring) 操作 。 与 我 见 过 的 任何 流派 
者 不 一 样 ， 在 这 里 \cA 和 \ca 是 不 同 的 。\cA 等 于 传统 意义 上 的 \x01，\ca 则 等 价 于 \x21， 匹 配 54! ’ 

CNw、\d 和 \s〈 以 及 对 应 的 大 写 缩 略 法 ) 只 适用 于 ASCII 字 符 ， 而 不 包括 其 他 的 字母 、 数 字 或 者 
Unicode ”空白 字符 。 也 就 是 说 ，\d 等 价 于 [0-9]，\w 等 价 于 [0-9a-zA-Z]，\s 等 价 于 [:\t\n\f\rx0B] (x0B 是 
ASCII 中 基本 不 用 的 VT 字符 )〉。 

要 禾 蘑 完整 的 Unicode 字 从， 可 以 使 用 Unicode 属 性 C2121) : 用 \p{ 什 } 表 示 \w，\p{Nd} 表 示 \d， 用 
\p{Z} 表 示 \s。〈 把 小 写 的 p 蔡 换 为 大 写 的 P， 就 可 以 对 应 WW、\D 和 \S) 。 

@N\p{.….} 和 \P{...} 支 持 Unicode 属性 和 区 块 ， 包 太 基 紫 额 名 的 YaxBb| ab} Ven poi ode or ze, | 





可 用 于 字符 组 内 部 (DD……(D 见 说 明 


详细 信息 在 下 一 页 。 

(4) Xf al ay FRA CED ABR i, “单词 字符 ”的 规定 不 同 于 \w 和 \W。 单 词 分 界 符 能 够 识别 Unicode 字 
符 ， 而 \w 和 \W 只 能 识别 ASCII 字 符 。 

© 顺序 环视 结构 中 可 以 使 用 任意 正则 表达 式 ， 但 是 逆序 环视 中 的 子 表达 式 只 能 匹配 长 度 

有 限 的 文本 。 也 就 是 说 ，1? | 可 以 出 现在 逆序 环视 中 ， 但 类 | 和 +| 则 不 行 。 请 参考 第 3 章 133 页 开 
始 的 内 容 。 

© 只 有 在 使 用 /x 修饰 符 ， 或 者 使 用 Pattern.COMMENTS 选 项 (368) (请 不 要 忘记 在 多 

行文 本 字符 串 中 添加 换行 符 ， 如 第 401 页 的 例子 》 时 ，#... 六 才 算 注 释 。 没 有 转 义 的 ASCII 字 空 自 字符 
会 被 忽略 。 注 意 : 这 一 点 与 大 多 数 支 持 此 模式 的 正则 引擎 不 同 ， 在 Java 中 字符 组 内 部 的 注释 和 空白 字符 也 

CNQ...E 一 直 是 被 支持 的 ， 但 在 Java 1.6 之 前 ， 字 符 组 内 部 的 此 种 结构 是 不 可 靠 的 。 


表 8-3: java.util.regex 中 Match 和 Regex 的 方法 


(2mode) 描述 

c 更 改 点 号 和 | 的 匹配 (370) 

点 孔 能 匹配 任何 字符 (I) 
扩展 “1 和 5$ 的 匹配 规定 ($370) 

宽松 排列 和 注释 模式 (在 字符 组 内 部 也 有 效 ) 
(W172, 

Pattern.CASE INSENSITIVE | i 对 ASCI 字符 进行 不 区 分 大 小 写 的 匹配 

对 Unicode 字符 进行 不 区 分 大 小 写 的 匹配 

Unicode “ 按 规 则 等 价 (canonical equivalence) ” 
匹配 模式 〈 不 同 编码 中 的 同样 字符 视 为 相等 
#108) 


将 regex 参数 作为 文字 文本 ， 而 非 正 则 表达 式 





编译 选项 


Patern.UNIX LINES 





Pattern. DOTALL 











Pattern.MULTILINE 


Pattern.COMMENTS 


Pattern.UNICODE CASE 


ar 


Pattern.CANNON EQ 


Pattern.LIITERAL 
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Java Support for\p{ }and\P{ } 


\p{..$) A APL... 结构 支持 Unicode 的 属性 和 区 块 ， 也 支持 特殊 的 “Java” 字 符 属性 。 这 种 支持 针对 

Unicode Version 4.0.0 (Java 1.4.2 只 支持 Unicode Version 3.0.0) 。 

Unicode 属 性 

Unicode 属 性 是 通过 \p{Lu} 之 类 的 缩写 名 字 来 引用 的 《参加 122 页 的 列表 ) 。 单 字母 属性 名 可 以 省 略 括 
号 ，\pL 等 价 于 \p{L}。 而 \p{Lowercase_Letter} 之 类 的 长 名 称 是 不 文 持 的 。Java 1.5 及 之 前 的 版 本 是 不 文 持 Pi 
和 Pf 属性 的 ， 因 此 ， 其 有 这 种 属性 的 字符 不 能 用 \p{P} 来 匹配 (Java 1.6 文 持 ) 。 

“未 赋值 的 代码 点 ”属性 \p{Cn} 还 配 的 字符， 不 能 由 “其 他 字符 ”属性 \p{C} 来 到 配 。Java 不 文 持 组 合 属性 
\p{L&}. 

Java 支 持 伪 属性 \p{all}， 它 等 价 于 1 (? S: .) | ， 但 不 支持 \p{assigned} 和 \p{unassigned} 伪 属性 ， 不 过 
我 们 可 以 用 \P{Cn} 和 \p{fCn} 来 代替 。 

Unicode 区 块 

Unicode block 的 支持 要 求 使 用 ‘In’ 前 级 。 请 翻 到 第 402 页 查阅 具体 的 版 本 信息 ， 了 解 \p{...}| 和 
\P{...}| 中 能 够 出 现 的 区 块 名 称 。 

为 了 保持 同 后 兼容 性 ，Java 1.5 中 有 两 个 Unicode 区 块 在 Unicode Version 3.0 和 4.0 之 间 友 生 了 变化 。 除 了 
Unicode 4.0 提 供 的 Combining Diacritical Marks for Symbols 和 Greek and Coptic 之 外 ， 还 可 以 使 用 本 不 属于 
Unicode 4.0 的 名 称 Combining Marks for Symbols 和 Greek。 


Java 1.4.2 有 个 涉及 Arabic Presentation Forms-B 和 Latin Extended-B 的 bug， 在 Java 1.5 中 已 经 修正 。 

特殊 的 Java 字 人 符 属 性 

从 Java 1.5.0 开始 ，\p{...} 和 \P{...} 结 构 能 够 支持 java.lang.Character 中 未 弃 用 (non-deprecated) 的 
isSomething 方 法 。 为 了 在 正则 表达 陈 中 使 用 此 功能 ， 请 把 方法 名 开头 的 和 "和 丛 换 成 java"， 然 后 使 用 


i1sJavalidentifierStart est 
\p{...$) 和 '\P{...$) 。 例 如 ， 由 java.lang.Characer. ”一 瑟 匹 配 的 字符 也 能 用 正 


则 表达 式 “\p{javaJavaldentifierStart} | 来 匹配 (请 参考 java.lang.Character 类 的 文档 ) 。 
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Unicode 行 终结 符 


Unicode Line Terminators 

在 Unicode 之 前 的 传统 正则 流派 中 ， 点 号 、^、$ 和 \Z 会 对 换行 符 (ASCII 中 的 LF 字符 ) 进行 特殊 处 理 。 
在 Java 中 ， 大 多 数 Unicode 行 终结 符 〈 嗓 109) 也 会 这 样 特殊 处 理 。 

正常 情况 下 ，Java 会 把 下 面 的 这 些 字符 当 作 行 终结 符 : 


字符 代码 名 称 说 明 

 U+000A | LF \n | ASCII 3474 (“newline”) 

U+000D ASCI 回 车 

U+000D U+000A ASCII 回 丰 /换行 序列 

U+0085 Unicode NEXT LINE (Unicode 换行 符 ) 

 U+2028 Unicode LINE SEPERATOR (Unicode 行 分 隔 符 ) 
U+2029 Unicode PARAGRAPH SEPARATOR (Unicode 段 分 隔 符 ) 


根据 匹配 模式 C368) 的 不 同 ， 点 号 、A、$ 和 \Z 会 对 这 些 符 号 进行 特殊 处 理 ; 


匹配 模式 说 明 


UNIX LINE 恢复 到 传统 模式 ， 只 把 换行 符 作 为 一 行 的 终结 
MULTILINE 字符 串 中 的 行 终结 符 也 可 以 由 ^ 和 5 匹配 
DOTALL |. | 行 终结 符 不 再 另行 处 理 ， 点 号 可 以 匹配 所 有 字符 





作为 行 终结 标志 的 双 字 和 人 符 CR/LF 值 得 一 提 。。 默 认 情 况 ( 没 有 使 用 UNIX_LINES 时 ) 是 识别 完整 的 行 终 
结 符 ， 匹 配 文本 行 边 界 的 元 字符 会 把 CR/VLEF 视 为 不 可 分 隔 的 单位 ， 一 次 性 匹配 这 两 个 字符 。 

举例 来 说 ，$ 和 \Z 通常 会 匹配 行 终结 符 之 前 的 位 置 。LEF 是 行 终结 符 ， 但 只 有 在 它 不 属于 CR/LF (也 就 
是 说 ，LF 之 前 没有 CR) 的 情况 下 ，$ 和 \Z 才 能 匹配 字符 串 末 尾 的 LF 之 前 的 位 置 。 

MUTILINE 模 了 式 中 的 $4 和 A^ 也 是 如 此 ， 在 这 种 模式 下 ， 只 有 在 CR 之 后 没有 LE 的 情况 下 ，^ 才 能 匹配 CR 之 
后 的 位 置 ， 只 有 在 LF 之 前 不 是 CR 的 情况 下 ，$ 才 能 匹配 LF 之 前 的 位 置 。 

必须 说 清楚 的 是 ，DOTALL 对 CR/LF 的 处 理 没 有 影响 (DOTALL 只 影 啊 点 号 ， 而 点 号 总 古 逐个 处 理 字 
AFA) ，UNIX_LINES 根 本 不 存在 此 类 问题 〈 它 只 识别 CR， 所 有 其 他 行 终结 符 都 不 需要 特殊 处 理 ) 。 
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使 用 java.util.regex 


Using java.util.regex 
通过 java.util.regex 使 用 正则 表达 式 非 党 简单 ， 功 能 由 两 个 类 ， 一 个 接口 和 一 个 unchecked exception 组 


Java.util.regex.Pattern 
java.util.regex.Matcher 
java.util.regex.MatchResult 
java.util.regex.PatternSyntaxException 
怠 我 个 人 来 说 ， 更 喜欢 简称 前 两 个 为 "pattern” 和 “matcher”， 许 多 时 候 我 们 只 会 用 到 这 两 个 类 。 人 简单 地 
Wi, Pattern 对 象 束 是 编译 好 的 正则 表达 式 ， 可 以 应 用 于 任意 多 个 字符 串 ，Matcher 对 象 则 对 应 单独 的 实例 ， 
表示 将 正则 表达 式 应 用 到 某 个 具体 的 目标 字符 串 上 。 
Java 1.5 新 提供 的 MatchResult， 它 封 攻 了 成 功 匹 配 的 数据 。 匹 配 数据 可 以 在 下 一 次 匹配 竹 试 之 前 从 
Matcher 本 里 获得 ， 也 可 以 提取 出 来 作为 MatchResult 你 存 。 
如 果 匹 配 尝试 所 使 用 的 正则 表达 式 格式 不 正确 (例如 ， [oops] 的 语法 就 不 正确 ，， 就 会 抛 出 
PatternSyntaxException 异常 。 这 是 一 个 unchecked exception， 继 承 目 java.lang.lllegalAgumentException。 
下 和 面 是 一 个 完整 的 、 详 细 的 程序 ， 示 泥 了 简单 的 四 配 : 





String myText = “this is my ist test string”; 

String myRegex = "\\d+\\wt"; // 表示 \d+\wt+ 

java.util.regex.Pattern p = java.util.regex.Pattern.compile (myRegex) ; 
java.util.regex.Matcher m = p.matcher(myText) ; 


if (m.find() 4 
String matchedText = m.group(); 
int matchedFrom = m.start(); 
int matchedTo = m.end(); 


System.out.println("matched [" + matchedText + "] " + 
"from " + matchedFrom + 
” to ”" + mateneatTo + T, "]jj 
} else { 


System.out.printlin("didn't match") ; 
} 
} 

} 

结果 是 ‘matched [1st] from 12 to 15.。 在 本 章 的 所 有 例子 中 ， 我 都 用 笠 体 表示 变量 名 。 如 采 这 样 声明 ， 
可 以 省 略 粗 体 部 分 : 

import java.util.regex. * ; 

它 应 该 放 在 程序 的 头 部 ， 和 第 3 章 的 例子 CS 95) 一 样 。 

这 是 标准 的 做 法 ， 而 且 程 序 更 容易 管理 。 本 章 的 其 他 程序 省 略 了 import 语 句 。 

java.utilregex 使 用 的 对 象 模型 与 其 他 大 多 数 语 言 不 同 。 请 注意 ， 前 面 例子 中 的 Matcher 对 象 m， 是 通过 
把 ”Pattern 对 象 和 目标 字符 串联 系 起 来 得 到 的 ， 它 用 来 进行 实际 的 匹配 竹 试 〈 使 用 find 方 法 ) ， 以 及 但 询 结 
果 〈 使 用 group、start 和 end 方 法 ) 。 

这 办 法 初 看 起 来 可 能 有 点 古怪 ， 但 你 很 快 残 能 适应 了 。 
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The Pattern.compile() Factory 


ThePattern.compile() Factory 
IEMA SUH Pattern} Ae ze Hw Pattern.compile# MAY. BNE R ERR EMRA RIE CS 
101〉。368 页 表格 8-3 中 的 选项 可 以 作为 第 二 个 参数 。 下 面 的 代码 从 字符 串 myRegex 生 成 一 个 pattem， 进 行 
不 区 分 大 小 与 的 匹配 : 
Pattern pat = Pattern.compile (myRegex, 
Pattern.CASE INSENSITIVE | Pattern.UNICODE CASE) ; 


预定 义 的 pattem 常量 用 来 指定 编译 选项 (例如 Pattern.CASE INSENSITIVE) ， 这 可 能 有 点 策 拙 ( 注 
2) ， 所 以 我 会 使 用 正则 表达 式 内 部 的 模式 修饰 符 〈 吧 110) 。 包 括 378 页 的 (? x) | ，399 页 的 1 C? 

s) | 和 多 个 | (CD). 

不 过 ， 预 定义 常量 固然 复杂 ， 但 这 种 “条 办 法 Cunwieldy) ”能 够 降低 新 手 阅 读 代 码 的 难度 。 如 果 没 有 
页 面 宽 度 限 制 ， 我 们 可 以 这 样 写 第 384 页 的 Pattern.compile 的 第 二 个 参数 : 

Pattern. UNIX_LINES|Pattern.CASE_INSENSITIVE 

而 不 是 在 正则 表达 式 开头 使 用 不 那么 清楚 的 (? id) | 。 

从 名 字 可 以 看 出 ， 这 一 步 把 正则 表达 式 解 析 并 编译 为 内 部 形式 。 第 6 章 对 此 有 详细 讲解 (1241) , fal 
单 地 说 ， 在 字符 串 内 应 用 表达 式 的 整个 过 程 中 ， 编 详 pattern 通常 是 最 耗 时 间 的 。 所 以 要 把 编译 独立 出 来 ， 
作为 第 一 步 这 样 就 可 以 先期 将 正则 表达 式 编 译 好 ， 重 复 使 用 。 

当然 ， 如 果 正 则 表达 式 编译 之 后 只 需要 使 用 一 次 ， 编 译 时 机 束 不 是 个 问题 ， 但 如 末 雷 要 多 次 应 用 〈 例 
如 应 用 到 读 入 文件 的 每 一 行 ) ， 预 编译 Pattern 对 象 就 很 有 价值 。 

调用 Patern.compile 可 能 抛 出 两 种 类 型 的 异 钊 : 如 果 正 则 表达 式 不 合 规则 ， 扫 出 Pattern- 
SyntaxException， 选 项 不 合 规 则 ， 殷 出 lllegalArgumentException。 





Pattern 的 matcher 方 法 


Pattern's matchermethod 

Bon 02394) 我 们 会 看 到 ，Pattern 提 供 了 茶 些 简便 的 方法 ， 但 是 大 多 数 情 况 下 ， 我 们 只 需要 一 个 方 
法 完成 所 有 工作 : matcher。 它 接受 一 个 参数 : 需要 检索 的 字符 串 GE 3) 。 此 时 并 没有 确切 应 用 这 个 正则 
表达 式 ， 而 只 是 为 将 pattern 应 用 到 特定 的 字符 串 做 准备 。matcher 方 法 返回 一 个 Matcher 对 象 。 
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Matcher 对 和 象 


The Matcher Object 

把 正则 表达 式 和 目标 字符 串联 系 起 来 ， 生 成 Matcher 对 象 之 后 ， 就 可 以 以 多 种 方式 将 其 应 用 到 目标 字符 
品 中 ， 并 查询 应 用 的 结果 。 例 如 ， 对 于 给 定 的 Matcher 对 象 m， 我 们 可 以 用 m.find O 来 把 m 的 表达 式 应 用 
o 返回 一 个 Boolean 值 ， 表 示 是 人 否 能 找到 匹配 。 如 果 能 找到 ，m.group O 返回 实际 匹配 的 
EAE AB 

在 讲解 Matcher 的 各 种 方法 之 前 ， 不 妨 先 了 解 了 解 它 保存 的 各 种 信息 。 为 了 方便 疯 谈 ， 下 面 的 清单 都 提 
供 了 对 应 的 详细 讲解 部 分 的 页 码 。 第 一 张 清 单 中 的 元 系 是 程序 员 能 够 设置 和 更 改 的 ， 而 第 二 张 清单 中 的 元 
Are RAN. 

程序 员 能 够 设置 和 修改 的 是 : 

ePattern 对 象 ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通过 usePattern O 方法 更 改 C393) 。 当 前 所 
用 的 Pattern 可 以 用 pattern O 方法 获得 。 

e 目标 字符 串 〈 或 其 他 CharSequence 对 象 ) ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通过 reset (text) 方 
法 更 改 (392) 。 

e 目标 字 人 符 串 的 “检索 苑 围 (region) ” (= 394) 。 默 认 情 况 下 ， 检 索 泥 围 束 是 整个 目标 字符 串 ， 但 是 
程序 员 可 以 通过 region 方法 ， 将 其 修改 为 目标 字符 串 的 某 一 段 。 这 样 菜 些 (而 不 是 全 部 ) 匹 配 操 作 束 只 能 
在 某 个 区 域内 进行 。 

当前 检索 范围 的 起 始 和 结束 偏 移 值 可 以 通过 regionStart 和 regionEnd 方法 获得 (386) 。reset 方 法 

(e392) 会 把 检索 范围 重新 设置 为 整个 目标 字符 串 ， 任 何在 内 部 调用 reset 方 读 的 方法 也 是 一 样 。 

eanchoring bounds 标 总 位 。 如 采 检 索 范 围 不 等 于 整个 目标 字符 串 ， 程 序 员 可 以 设 定 ， 是 否 将 检索 苑 围 
的 边界 设置 为 “文本 起 始 位 置 " 和 “文本 结束 位 置 "， 这 会 影 啊 文本 行 边界 元 字 从 NA^$Z\Z) 。 

默认 情况 下 ， 这 个 标志 位 为 true， 但 也 可 能 改变 ， 可 以 通过 ” useAnchoringBounds (1388) 和 
hasAnchoringBounds 方 法 来 修改 和 和 奉 询 。Reset 方 法 不 会 修改 标志 位 。 

etransparent bounds 标 记 人 位。 如 果 检 过 范围 是 整个 目标 字符 串 中 的 一 段 广 本， 设置 为 tue 容 许 各 种 “考察 
(looking) ”结构 (顺序 环视 、 逆 序 环 视 ， 以 及 蛙 词 分 界 符 〉 超越 检索 范围 的 边界 ， 检 查 外 部 的 文本 。 

默认 情况 下 ， 这 个 标志 位 为 false， 但 也 可 能 改变 ， 可 以 通过 useTransparentBounds (1388) 和 hasTran- 
sparentBounds 方 法 来 修改 和 查询 。Reset 方 法 不 会 修改 标志 位 。 

下 面 的 只 读数 据 你 存在 matcher 内 部 : 

e 当前 pattermn 的 捕获 型 括号 的 数目 可 以 通过 groupCount (号 377) 方法 得 询 。 

e 目标 字符 串 中 的 match pointer 或 current location， 用 于 支持 “寻找 下 一 个 匹配 ”的 操作 (通过 find 方 法 福 
375) æ 

o 目标 字符 串 中 的 append pointer, EAR- RAEP CS 380) ， 复 制 未 匹配 的 文本 部 分 时 使 用 。 

e 表 示 到 达 字 符 串 结尾 的 上 一 次 匹配 和 斌 是否 成 功 的 标志 位 。 可 以 通过 hitEnd 方法 C= 390) 获得 这 个 
标记 位 的 值 。 

ematch result。 如 采 最 近 一 次 匹配 竹 试 成 功 ，Java 会 将 各 种 数据 收集 起 来 ， 合 称 为 match result (=> 
376) 。 包 括 匹 配 文本 的 范围 《〈 通 过 group O 方法 ) ， 风 配 文本 在 目标 字符 串 中 的 起 始 和 结束 偏 移 值 ( 通 
过 start() Mend O 方法 ) ， 以 及 每 一 组 捕获 型 插 写 对 应 的 信息 (通过 group (num) 、start (num) 和 
end (num) 方法 ) 。 

match-result 数据 封装 在 MatchResult 对 象 中 ， 通 过 toMatchResult 方法 获得 。MatchResult 方 法 有 目 己 的 
group、start 和 和 end 方法 (全 377) 。 

e 一 个 标 专 位， 表明 更 长 的 目标 文本 是 个 会 导致 号 配 失 败 《〈 匹 配 成 功 之 后 才 可 用 ) 。 如 果 边 界 元 字符 
影 啊 了 匹配 结果 的 生成 ， 则 此 值 为 tue。 可 以 通过 requireEnd 方 法 答 看 它 的 值 〈 嗓 390) 。 

FF 面 列 出 的 内 容 很 多 ， 但 是 如 末 按 照 功 能 分 别 讲解 ， 便 很 容易 掌握 。 这 正 是 下 面 几 节 的 内 容 。 把 这 一 
BABS PMN, ATK C366) 的 列表 会 很 有 用 。 


应 用 正则 表达 式 
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把 matcher 的 正则 表达 式 应 用 到 目标 文本 时 ， 主 要 会 用 到 Matcher 有 的 这 些 方法 : 
boolean find() 
此 方法 在 目 祭 字符 串 的 当前 检索 范围 《到 384) 中 应 用 Matcher 的 正则 表达 式 ， 返 回 的 Boolean 值 表示 是 
含 能 找到 匹配 。 如 果 多 次 调用 ， 则 每 次 都 在 上 次 的 匹配 位 置 之 后 竹 试 新 的 下 配 。 没 有 给 定 参 数 的 find 只 使 
用 当前 的 检索 范围 《〈 呈 384) 。 
下 面 是 简单 示例 : 


String regex = "\\wt"; 
String text "Mastering Regular Expressions"; 
Matcher m = Pattern.compile (regex) .matcher (text) ; 
if (m.find() ) 

SySstam.outr,.prrntin ('maneh J™ + mgroupt) + *]™") z 


结果 十 : 
match [Mastringj 


如 果 这 样 写 : 


while (m.£find() ) 
System.out.printin ("match [" + m.gqroup() + *]™); 


结果 就 古 : 
match [Mastering] 


match [Regular] 
match [Expressions] 


Olean find(int offset) 


MRE S AHSA, VLA ASME Bip rA EA Aoffset h FI MERR. WW Roffsety MH Ax 

BE HY T A pe ee BAIS RE, 2944 IndexOutOfBoundsException3¥ H © 
ee HAC EZ, MT Be Ae Ss A eB” CE STEW abd reset 

方法 号 392) 。 

第 400 页 的 补充 内 容 〈 作 为 第 399 页 问题 的 答案 ) 给 出 了 恰当 的 例子 。 

boolean matches() 

此 方法 返回 的 Boolean 值 表示 matcher 的 正则 表达 陈 能 个 完全 匹配 目标 字符 串 中 当前 检索 范围 的 那 段 文 
本 。 也 台 是 说 ， 如 果 匹 配 成 功 ， 匹 配 的 文本 必须 从 检索 苑 围 的 开头 开始 ， 到 检索 范围 的 结尾 结束 《默认 情 
况 就 是 整个 目标 字符 串 ) 。 如 果 检 索 范 围 设 置 为 默认 的 “所 有 文本 ”，matches 比 使 用 \A (? : ...) \z| 要 简 
FA 

不 过 ， 如 果 当 前 检索 范围 不 等 于 默认 情况 (384) ， 使 用 matches 可 以 在 不 受 anchoring-bounds 标 志 位 
(号 388) 影响 的 情况 下 检查 整个 检索 范围 中 的 文本 。 

举例 来 说 ， 如 果 使 用 CharBuffer 来 保存 程序 中 用 户 输入 的 文本 ， 而 检索 范围 设 定 为 用 户 用 鼠标 选 定 的 
部 分 。 如 果 用 户 点 击 选区 的 部 分 ， 可 以 用 m.usePattern (urlPattern) .matches O 来 检查 选 定 部 分 是 否 为 
URL CWE, WEFT AB VAR BE) 。 


String 对 象 也 支持 matches 方法 ， 


12734" .matches ("\\d+"); 7/7 true 
"12731" matches (™\ds")3» Fi false 





an lookingAt() 


此 方法 返回 的 Boolean 值 表示 Matches HS) TE TUS A GK BE WA Bele tora FE 


配 。 它 类 似 于 matches 方 法 ， 但 不 要 求 检索 范围 中 的 整 段 文 本 都 能 匹配 。 
A wW VU i R 


Querying Match Results 

下 面 列 出 的 Matcher 方 法 返回 了 成功 毗 配 的 信息 。 如 果 正 则 表达 式 还 未 应 用 过 ， 或 者 匹配 笑 试 不 成 功 ， 
它们 会 抛 出 TegalStateException。 接 收 num 参 数 〈 对 应 一 组 捕获 型 插 写 ) 的 方法 ， 如 果 给 定 的 num 非 法 ， 会 
抛 出 IndexOutOfBoundsException 。 

请 注意 start 和 end 方 法 ， 它 们 返回 的 偏 移 值 不 受 检索 范围 的 影响 

台 计 算 ， 而 不 是 检索 范围 的 开头 。 

后 面 还 给 出 了 一 个 例子 ， 讲 解 其 中 大 部 分 方法 的 使 用 。 

String group() 

返回 前 一 人 次 应 用 正则 表达 式 的 匹配 文本 。 

int groupCount() 

返回 正则 表达 式 中 与 Matcher 天 联 的 捕获 型 括号 的 数目 。 在 group. start#l end 方 法 中 可 以 使 用 小 于 此 数 

目的 数字 作为 numth 参 数 ， 下 文 介绍 ( 注 4) 。 

String gropu(int num) 

返回 编号 为 num 的 捕获 型 括号 匹配 的 内 容 ， 如 果 对 应 的 捕获 型 括号 没有 参与 匹配 ， 则 返回 null。 如 果 
num" 为 0， 表 示 返 回 整 个 匹配 的 内 容 ，group (0) 就 等 于 group © 。 

int start(int num) 

此 方法 返回 编号 为 ”nume 的 捕获 型 括号 所 匹配 文本 的 起 点 在 目标 字符 串 中 的 绝对 偏 移 值 一 一 即 从 目标 
字符 串 起 始 位 置 开始 计 算 的 偏 移 值 。 如 末 捕 获 型 括号 没有 参与 岂 配 ， 则 返回 -1。 

int start() 

此 方法 返回 整个 匹配 起 点 的 绝对 侦 移 值 ，start O WS Pstart (0) 。 

int end(int num) 

此 方法 返回 编号 为 “nume 的 捕获 型 括号 所 匹配 文本 的 终点 在 目标 字符 串 中 的 绝对 偏 移 值 一 一 即 从 目标 
字符 串 起 始 位 置 开始 计 算 的 偏 移 值 。 如 下 捕获 型 插 写 没有 参与 下 配 ， 则 返回 -1。 

int end() 

次 方法 返回 整个 匹配 的 终点 的 绝对 侦 移 值 ，end〈) 残 等 于 end (0) 。 

MatcheResult toMatchResult() 

此 方法 从 Java 1.5.0 开 始 提供 ， 返 回 的 MatchResult 对 象 封 攻 了 了 当前 匹配 的 信息 。 和 它 和 Matcher 关 一 样 ， 也 
包含 上 面 列 出 的 group、start、end 和 groupCount 方 法 。 如 果 前 一 次 匹配 不 成 功 ， 或 者 Matcher 还 没有 进行 匹 
配 操作 ， 调 用 toMatcheResult2 jh H MlegalStateException. 

示例 

下 面 的 例子 示范 了 厂 干 方法 的 使 用 。 给 定 一 个 URL 了 字符 串 ， 这 上 段 代码 会 找 出 URL 的 协议 名 (‘http’ 或 
是 ‘https*) 、 主 机 名 ， 以 及 可 能 出 现 的 新 口号 : 


俩 移 值 从 整个 目标 字符 串 的 开头 开 
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String url = “http://regex.info/blog"; 
String regex = "(?x) “*(https?):// ([*/:]+) (24 (\\d+t)) 2"; 
Matcher m = Pattern.compile (regex) .matcher (url); 


‘tT OS Ting 3 
{ 
System.out.print ( 
"Overall |" F marong) 机 “外 + 


” trrom * + m.start() +" to" + m.end() + ")\n" + 
"Prococo. |" + merouetl) + TF + 

” eprom * + m.start(1) + T to " + m.end(1) + ")\n" + 
"Hostname |" + mgroupl(Z) + "|" + 

* (tron * + m.start(2) + to * + meend(@) + "J yn" 


) ; 
// group (3) 可 能 未 参与 匹配 ， 此 处 应 小 心 对 待 


if (m.group(3) == null) 

System.out.println("No port; default of '80' is assumed"); 
else { 

SYStem, Our. nprinct"Fort. 1s I" + maqroun(s) + TJ " 4 


"(Trom ™ + mstartts) + * to T + mend(3) + *) yni 
| 
} 
执行 的 结果 是 : 
Overall [http://regex.info] (from 0 to 17) 
Protocol [http] (from 0 to 4) 
Hostname [regex.info] (from 7 to 17) 
No port; default of '80' is assumed 
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Simple Search and Replace 

ETAT ZA BY TZ AE EST BR -S RRTE S, A RELI, {Axe Matcher 提供 了 人 简便 的 方法 。 

String replaceAll(String replacement) 

Rel A ee AF BAS, HP Matcher i DLAC HY 3c AS ah 2 yk FH Areplacement, HAKA it Fe E380 


此 方法 不 受 检索 范 围 的 影响 ( 它 会 在 内 部 调用 reset 方 法 ) ， 不 过 第 382 页 介绍 了 在 检索 范围 中 进行 这 样 
操作 的 方法 。 

String 类 也 提供 了 replaceAll 的 方法 ， 所 以 : 

string.replaceAll(regex,replacement) 

MET: 

Pattern.compile(regex).matcher(string).replaceAll(replacement) 

String replaceFirst(String replacement) 

此 方法 类 似 replaceAll， 但 它 只 对 第 一 次 匹配 《如 果 存 在 ) HET HR. 

String 类 也 提供 了 replaceFirst 方 法 。 

Static String quoteReplacement(String text) 

此 static 方 法 从 Java 1.57 URE, ik lAltexth) LH /FreplacementhN24%. E Atextial) ASF AY PREIS As 
WAS SC, eR S FR HRR TE UU eA SER FADE CR A tL Matcher.quoteReplacementi') M 
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f PAR- E RAIF 
下 面 的 程序 将 所 有 的 “Java 1.5” 改 为 “Java 5.0?， 用 市 场 化 的 名 称 取代 开发 名 称 : 


TT 





String result = m.replaceAll ("Java 5.0"); 


结 来 是 : 

Before Java 5.0 was Java 1.4.2.After Java 5.0 is Java 1.6 

如 果 pattern 和 matcher 不 需要 复 用 ， 可 以 使 用 链 式 编程 : 

Pattern.compile( " \\bJava\\s * 1\\.5\\b '"_).matcher(text).replaceAll( " Java 5.0 " ) 

《如果 单个 线程 中 需要 多 次 用 到 同一 pattern， 预 编译 pattern 对 象 可 以 提升 效率 嗓 372 ) 

对 正则 表达 式 稍 加 修改 ， 就 可 以 用 它 来 把 “Java 1.6” 改 为 “Java 6.0”( 当 然 也 需要 修改 replacement 字 符 
串 ， 讲 解 见 下 页 〉。 

Pattern.compile( " \\bJava\\s * 1N.([56])Nb " ).matcher(text).replaceAll( " Java$1.0 " ) 

对 于 同样 的 输入 文本 ， 结 果 如 下 : 

Before Java 5.0 was Java 1.4.2.After Java 5.0 is Java 6.0 

如 果 只 需要 蔡 换 第 一 次 出 现 的 文本 ， 可 以 使 用 replaceFirst， 而 不 是 replaceAll。 除 了 这 种 情况 ， 还 有 一 
种 情况 可 以 使 用 replaceFirst， 即 明确 知道 目标 字符 串 中 只 存在 一 个 匹配 时 ， 使 用 replaceFirst 可 以 提高 效率 

(如 果 了 解 正则 表达 式 或 是 目标 字符 串 ， 可 以 预知 这 一 点 )。 

replacement 参 数 

replaceAll 和 replaceFirst 方法 (以 及 下 一 节 的 appendReplacement 方法 ) 接收 的 replacement 参 数 在 插入 
到 匹配 结束 之 前 ， 会 进行 特殊 处 理 : 

e $1、'$2 :之 拓 会 蔡 换 为 对 应 编 亏 的 捕获 型 括 亏 匹配 的 文本 《〈$0 会 航 蔡 换 为 所 有 匹配 的 文本 ) 。 

eM KS ZAHN AGASCHMALS, 90H MegalArgumentException#; fi - 

$9 之 后 的 数字 ， 只 会 应 用 “有 意义 ”的 部 分 。 如 果 只 有 3 组 捕获 型 括 写 ， 则 ‘$25’ 会 密 视 为 $2 然后 是 “5’， 
而 此 时 $6 会 抛 出 IndexOutOfBoundsException。 

e 反 和 斜 线 用 来 转 义 后 面 的 字符 ， 所 以 作 ' 表 示 美 元 符号 。 同 样 的 道理 ， 人 表示 反 和 斜 线 〈 在 Java 的 字符 串 
中 ， 表 示 正 则 表达 式 中 的 心 需 要 用 四 个 斜 线 "\〉 。 同 样 ， 如 果 有 12 组 捕获 型 括号 ， 而 我 们 希望 使 用 第 一 
组 捕获 型 括 写 逻 配 的 文本 ， 然 后 是 ‘2*?*， 应 该 是 这 样 ‘$1\2’。 

如 果 不 清 楚 replacement 字 符 串 的 内 容 ， 最 好 使 用 Matcher.quoteReplacement 方 法 ， 确 保 不 会 出 错 。 如 果 
用 户 的 正则 表达 式 是 uRegex，replacement 是 uURepl， 下 面 的 做 法 可 以 确保 符 换 的 安全 : 

Pattern.compile(uRegex).matcher(text).replaceAll(Matcher.quoteReplacement(uRepl)) 


ARAR- E 


Advanced Search and Replace 

有 两 个 方法 可 以 直接 操作 Matcher 的 查找 - 丛 换 过 程 。 它 们 配合 起 来 ， 把 结 末 存 入 用 户 指定 的 
StringBuffer 中 。 第 一 种 方法 每 次 匹配 之 后 都 会 调用 ， 在 result 中 存 入 replacement 字 符 串 和 匹配 之 间 的 文本 。 
第 二 种 方法 会 在 所 有 匹配 完成 之 后 调用 ， 将 目标 字符 串 中 最 后 的 文本 找 册 过 来 。 

Matcher appendReplacement(StringBuffer result,String replacement) 

在 正则 表达 陈 应 用 成 功 之 后 《〈 通 各 是 find) 马上 调用 此 方法 会 把 两 个 字符 串 深 加 到 指定 的 result 中 : 第 
一 个 是 原始 目标 字符 串 匹 配 之 前 的 文本 ， 然 后 是 经 过 上 面 讲解 的 特殊 处 理 的 replacement 字 符 串 。 

举例 来 说 ， 如 果 matcher 与 正则 表达 式 \w+| 和 “一 >one+test<--" 相 联系 ，while 循 环 的 第 一 轮 情况 如 
F: 











while (m.find()) 
m.appendReplacement (sb; "XXX") 


| O O U Linuxt] [| www.linuxide.com [] [] 


find 找 到 下 男 线 标注 的 部 分 eae. 


然后 ， 第 一 次 appendReplacement 调 用 会 在 StringBuffer result 中 加 入 匹配 之 前 的 文本 汪 ->:， 跳 过 匹配 的 
MAS, Fe Areplacement* FB ‘XXX’ « 


While 循环 的 第 二 轮 ， find UCR “nee 
配 之 前 的 艾 本 ‘和 + ，”， 然 后 仍然 是 字符 串 ‘XXX’。 
这 样 Sb 的 值 就 是 ->XXX+XXX':，m 在 原始 目标 字符 串 中 对 应 的 位 置 是 二 -之 one+test 


Lo 


--”。 现 在 该 使 用 appendTail 方 法 了 ， 下 文 将 会 介绍 。 
StringBuffer appendTail(StringBuffer result) 
REIT AULA Za Cae, FR BITS 
标 字 符 串 中 剩 下 的 文本 附加 到 提供 的 StringBuffer 中 。 
在 上 例 中 ， 接 下 来 就 是 : 
m.appendTail(sb) 
将 “天 --" 附 加 到 Sb。 这 样 就 得 到 ->XXX+XXX<--:， 查 找 -替换 完成 。 
查找 - 蔡 换 示范 
下 面 实现 了 一 个 自己 的 replaceAl 的 方法 〈 并 非 必 


。 此 时 调用 appendReplacement 会 给 sb 附加 上 匹 








亭 止 匹配 过 程 ) ， 这 个 方法 将 目 


Di, RIENK) 。 


public static String replaceAll (Matcher m, 
{ 


String replacement) 


m.reset(); // 保证 Matcher 不 受 之 前 的 影响 


StringBuffer result = new StringBuffer(); // 生成 用 于 替换 的 副本 
while (m.find() ) 


m.appendReplacement (result, replacement); 
m.appendTail (result); 


return result.toString(); // ##A String, ABBA 
} 


它 与 Java AH replaceAl 方 法 一 样 ， 它 不 受 检 索 范 围 《〈 嗓 384) 的 影响 ， 而 是 在 得 找 - 答 换 之 前 重 置 
检索 范围 。 


为 了 鸡 补 这 个 缺憾 ， 下 面 的 replaceAl 只 在 检索 范围 中 进行 ， 修 改 和 新 增 的 代 但 会 标注 出 来 : 
ublic static String replaceAllRegion(Matcher m 
Integer start = m.regionStart() ; 
Integer end = m.regionEnd() ; 
m. SE San Sta we i if tE matcher, 之 后 恢复 region 
StringBuff result = new StringBuffer(); //ERATFRRHAA 


= Ao F 站 下 | fe = È 
=, + 1 rm a alt ali a al + h, T i ' 了 r] i i FE Ary = CI de ana 一 

| i | cat i” J i 1 1 | i | r, l SG A ú = | | F a 

kas kr La Li kua h Lal í = oF hk! La | 7 fi F f i I J kor ae ae | hy a i’ 


这 里 使 用 “方法 链 (译注 1) ”结合 reset 和 region， 
metric 变 量 中 的 摄氏 温度 转换 为 华氏 温度 : 


hl ie `p 一 - 
rh. = J- Tr 
w /TI LA [可 


详细 讲解 请 参阅 第 389 页 。 下 面 的 程序 更 加 完善 ， 它 将 
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// 构建 一 个 matcher， 匹 配 "Mettric" 变 量 中 后 面 跟 有 "Cu 的 数值 

// 下 面 的 正则 表达 达 式 是 : ( \d+(?:\.\d* )? )C\b 

Matcher m = Pattern.compile("(\\d+(?:\\.\\d*) ?)C\\b") .matcher (metric) ; 

StringBuffer result = new StringBuffer(); /7/ 生 成 用 于 替换 的 副本 

while (m.find() ) 

{ 
float celsius = Float.parseFloat(m.group(1)); // 得 到 数值 ， 转 换 为 浮 点 数 
int fahrenheit = (int) (celsius * 9/5 + 32); // 转换 为 华氏 温 民 
m.appendReplacement (result, fahrenheit + "F"); // 4A 

} 

m.appendTail (result); 

System.out.println(result.toString()); // ETAF 


如 果 metric 变 量 包 含 “from 36.3C to 40.1C.”， 结 果 就 是 “from 97F to 104F.”. 
原 地 查找 -人 蔡 换 


In-Place Search and Replace 
现在 还 只 出 现 过 对 String 对 和 销 使 用 java.util.regex 的 例子 ， 但 是 Matcher 其 实 适用 于 任何 实现 了 
CharSequence 接 口 的 类 ， 所 以 我 们 能 够 对 目标 文本 进行 实时 的 、 原 地 (in place) 的 修改 。 
StringBuffer 和 StringBuilder 是 两 种 常用 的 实现 了 CharSequence 接 口 的 类 ， 前 者 你 证 线程 安全 性 ， 但 效 
率 略 低 。 这 两 者 都 可 以 作为 String 来 使 用 ， 但 它们 的 值 可 以 变化 。 本 书 中 的 例子 使 用 了 StringBuilder， 但 如 
果 在 多 线程 环境 中 ， 请 使 用 StringBuffer。 
LAERA T E StringBuilder FR RKS Hi, REN AD) SIR GES) : 
StringBuilder text = new StringBuilder ("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu} \\p{Lt}]+\\b") .matcher (text); 
while (m.find()) 
text.replace(m.start(), m.end(), m.group().toLowerCase()); 
System.out.printlin(text) ; 


结果 是 : 

It's so very rude to shout! 

FETA PLAC SPAR, WHH Y Pavxtext.replace. KANEK E i SRN CAE ERAAI A) 
MA) ， 然 后 是 用 作 replacement 的 文本 《也 残 是 匹配 文本 的 小 写 形式 ) 。 

因为 replacement 和 匹配 文本 长 度 相 同 ， 原 地 的 得 找 - 痊 换 很 简单 。 如 有 果 不 需 要 友 代 进行 得 找 - 符 换 ， 这 
种 方法 非常 方便 。 

KERZ HE R 

如 末 replacement 的 长 度 不 同 于 要 和 谷 换 文本 的 长 度 ， 情 况 束 复杂 起 来 。 对 目标 字符 串 的 修改 是 在 “ 背 
后 ”进行 的 ， 所 以 “匹配 指针 (match pointer) ”( 在 目标 字符 串 中 进行 下 一 次 find 的 开始 位 置 ) 会 发 生 错 
IRo 

要 解决 这 个 问题 ， 我 们 可 以 目 己 维护 匹配 指针 ， 明 确 告诉 find 下 一 次 答 试 应 该 从 何 处 开始 。 下 面 的 例 
子 做 了 这 样 的 改进 ， 在 需要 插入 的 小 写 文 本 两 病 六 加 了 <<b>.… 扫 巾 >: 
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StringBuilder text = new StringBuilder ("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu}\\p{Lt}]+\\b") .matcher (text); 
int matchPointer = 0;// 首先 从 字符 事 起 始 位 置 开始 
while (m.find(matchPointer)) { 
matchPointer = m.end(); // 记录 本 次 匹配 结束 的 位 置 
text.replace(m.start(), m.end(), "<b>"+ m.group().toLowerCase() +"</b>) ; 
matchPointer += 7; // 算 上 添加 的 '<b>' 和 '</b>' 


| 
System.out ,PrintJln (text); 


结果 是 : 

It's <b>so</b> very <b>rude </b> to shout! 

Matcher Hi 2 Yu 

The Matcher's Region 

从 Javal.5 开始 ，Matcher sce LNAI, Wee, RATE VE VOR SS UPR will CE H py Se FB 
HSE S yo Eel. Ia Tel R Matcher) tr yu Hl Le TS A ee, (Ba) UAN region EN IE. 

下 面 的 例子 检索 HTML 代码 字符 串 ， 报 告 不 包含 ALT 属性 的 image tag。 对 同一 段 文本 (HTML) , 
它 使 用 了 两 个 Matcher: 一 个 寻找 image tag， 男 一 个 寻找 ALT 属 性 。 

尽管 两 个 Matcher 应 用 到 同一 个 字符 吕 ， 但 它们 的 关联 只 局 限于 ， 用 找到 的 image tag 来 限定 寻找 ALT 属 
性 的 范围 。 在 调用 ALT-matcher 的 find 方 法 之 前 ， 我 们 用 刚刚 完成 的 image-tag 的 匹配 来 设 定 ALT-matcher 的 

单 拿 出 imagetag 的 body 之 后 ， 残 可 以 通过 得 找 ALT 来 判断 当前 的 tag 内 是 人 否 包 含 ALT 必 性: 


// 查找 image tag 的 matcher。 变 量 'htm1l' 和 包含 需要 处 理 的 HTM1 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>") .matcher (html); 





// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =").matcher (html); 


// 对 html PHA image tag 

while (mImg.find()) { 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 
mAlt.region(mImg.start(l), mImg.end(1) ); 


// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
1E (/ mALG. find ()) 
SyYSstem.oOut.println ("Missing ALT attribute in: ”十 mimg.group()); 
} 


或 许 在 一 处 指定 目标 字符 串 〈 创 建 mAlt Matcher IN) ， 另 一 处 指定 检索 犯 围 《〈 调 用 mAltregion 时 ) 的 
做 法 有 些 怪 寞 ， 果 真如 此 的 话 ， 我 们 可 以 为 mAlt 创 建 虚 构 的 目标 字符 串 《〈 一 个 空 字符 串 ) ， 然 后 每 次 都 调 
用 mAlt.reset (html) region C...) 。 调 用 reset 可 能 会 降低 些 效率 ， 但 是 同时 设 定 目标 字符 串 和 检索 范围 的 
逻辑 更 加 清晰 。 

无 论 采 取 哪 种 办 法 ， 都 必须 明白 ， 如 果 不 设 定 ALT Matcher 的 检索 范围 ， 对 它 调 用 find 就 会 检索 整个 目 
TITR, BEHERA ALT? JETE. 

下 面 继续 完善 这 个 程序 ， 返 回 找到 的 image tag 在 HTML 代码 中 的 行 数 。 我 们 首先 隔离 出 image tag 之 前 
的 HTML 代 码 ， 然 后 计算 其 中 的 换行 人 符 数 。 

标注 部 分 为 新 增 代 码 : 
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// 查找 image tag 的 matcher。 变量 'html' 包 侈 需要 处 理 的 HTML 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\st+(.*?)/?>") .matcher (html); 
// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =").matcher (html); 
// 查找 换行 符 的 Matcher 
Matcher mLine = Pattern.compile("\\n") .matcher (html); 
// 对 HTML 中 的 每 个 img tag... 
while (mImg.find() ) 
{ 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 
mAlt.region(miImg.start(1l), mImg.end(1) ); 
// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
LË ot! PALE, Carey) 4 
// 计算 当前 image tag 之 前 的 换行 符 的 数量 
mLine.region(0, mImg.start()) ; 
int lineNum = 1; // 第 一 行 编号 为 1 
while (mLine.find() ) 
lineNum++; // 每 遇 到 一 个 换行 符 就 加 1 


System.out.println("Missing ALT attribute on line " + lineNum) ; 


} 


与 之 前 一 样 ， 每 次 设 定 ALT Matcher 的 检索 范围 时 ， 都 使 用 image matcher 的 start (1) 方法 得 到 image 
tag body 在 HIML 中 的 起 始 位 置 。 相 反 ， 在 设 定 换行 符 匹 配 的 检索 范围 终点 时 ， 使 用 start O 方法 来 判断 整 
个 image tag 的 开始 位 置 〈 也 就 是 换行 符 计 算 的 终点 ) 。 

JLA tebe 

记 住 ， 某 些 检索 相关 的 方法 并 非 不 受 检 索 范 围 的 影响 ， 而 是 它们 在 内 部 调用 了 reset 方 法 ， 把 检索 范围 
WL FE IER VA AEB AN” 
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matches 
lookingAt 
find() (不 带 和 参数 ) 
e 会 重 置 matcher 及 其 检索 范围 的 方法 : 
find(text) (〈 带 一 个 参数 ) 
replaceAll 
replaceFirst 
reset (无 须 多 言 ) 
男 外 请 记 住 ， 逻 配 结果 数据 中 的 偏 移 值 (也 就 是 start 和 end 方 法 返回 的 数值 是 不 受 检索 范围 影响 的 ， 
它们 只 与 整个 目标 字符 串 的 开始 位 置 有 关 。 
设 定 及 奏 看 检索 范围 的 边界 
与 设 定 及 和 奏 看 检索 范围 边界 的 方法 有 3 个 : 
Matcher region(int start,int end) 
将 matcher 的 检索 范围 设 定 在 整个 目标 字符 串 的 start 和 end 之 间 ， 数 值 均 从 目标 字符 串 的 起 始 位 置 开始 计 
算 。 它 同样 会 重 置 Matcher， 将 “匹配 指针 ? 指 加 检索 范围 的 开头 ， 所 以 下 一 次 调用 find 从 此 处 开始 。 
如 末 没 有 重新 设 定 ， 或 是 调用 reset 方 法 《无 论 是 显 式 调用 还 是 在 其 他 方法 内 部 调用 罕 392) , ARE Hl 
\ 会 恋 . ° 
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返回 值 为 Matcher 对 销 本 里 ， 所 以 此 方法 可 用 于 方法 链 (389) 。 

如 果 start 或 end 超 出 了 目标 字符 串 的 和 范围， 或 者 start 比 end 要 大 ， 会 抛 出 IndexOutOf-BoundsException 。 

int regionStart() 

iR E HA Ye A] AY 8 i EO AY mE BRUNO. 

int regionEnd() 

UR E BA ZR WAARMEE H EAE EL, BRU Ee IRE. Al Aregion 77 v2; 
要 求 同 时 提供 start 和 end， 如 采 只 和 硕 望 设置 其 中 一 个 ， 可 能 不 大 方便 操作 。 表 8-4 给 出 了 方法 。 

表 8-4: 设 定 检索 范围 的 单个 边界 


起 始 边界 结束 边界 Java 代码 


明确 设 定 不 修改 m.region (start, m.regionEnd() ); 

不 修改 AF A 1 E m.region(m.regionStart(), end); 

明确 设 定 不 修改 m.reset().region(start, m.regionEnd() ) ; 
不 修改 AF ART E m.region(0, end); 


超越 检索 苑 

如 末 将 检索 范围 设 定 为 整个 目标 字符 串 中 的 一 段 ， 正 则 引擎 会 急 略 范围 之 外 的 文本 。 也 融 是 说 ， 检 索 
范围 的 起 始 位 置 可 以 用 Ai 匹配 ， 而 它 可 能 并 不 是 目标 字符 串 的 起 始 位 置 。 

不 过 ， 茶 些 情况 下 也 可 以 检查 检索 范围 之 外 的 文本 。 局 用 transparent bounds 能 够 让 “考察 

Cooking) ”结构 检查 范围 之 外 的 文本 ， 如 果 禁 用 anchoring bounds， 则 检索 范围 的 边界 不 会 被 视 为 输入 数 
据 的 起 始 / 结 束 位 置 《除非 实际 情况 如 此 ) 。 

修改 这 两 个 标志 位 的 理由 与 修改 稚 认 检索 范围 密切 相关 。 之 前 用 到 了 检索 范围 的 例子 都 不 需要 设 定 这 
两 个 标志 位 一 一 与 检索 冰 围 相关 的 查找 既 不 需要 尔 点 也 不 般 要 “考察 ”结构 。 

如 果 程 序 把 需要 用 户 编辑 的 文本 存放 在 CharBuffer 中 ， 用 户 希 望 执 行 查找 - 蔡 换 操作 ， 就 应 当 把 操作 的 
范围 限定 在 光标 之 后 的 文本 中 ， 所 以 应 当 把 检索 范围 的 起 始 位 置 设 定 为 当前 光标 所 在 的 位 置 。 如 采用 户 的 
光标 指 同 下 面 的 位 置 : 

Madagas,.car is much too large to see on foot,so you'll need a car. 

要 求 把 i\bcar\b | 蔡 换 为 “automobile”。 设 定 了 检索 范围 之 后 (即将 其 设 定 为 光标 之 后 的 文本 ) ， 你 可 
能 会 很 惊奇 地 发 现 第 一 次 匹配 就 古 在 检索 沁 围 的 开头 :“Madagascar’*"。 这 是 因为 默认 情况 下 transparent 
bounds 标 志 位 设 定 为 false， 因 此 \b| 将 检索 范围 起 始 位 置 设 定 为 文本 的 起 始 位 置 ， 而 “看 不 到 ” 左 侧 还 有 字 
符 。 如 果 将 transparent bounds 设 定 为 tue，'\b| 就 能 看 到 'c 之 前 还 有 's”， 因 此 '\b) 不 能 匹配 。 

Transparent Bounds 

与 这 个 标志 位 相关 的 方法 有 两 个 : 

Matcher useTransparentBounds(boolean b) 

Ww Æ transparent bounds 的 值 。 默 认为 false。 

此 方法 返回 Matcher 本 喘 ， 故 可 用 在 方法 链 中 。 

boolean hasTransparentBounds() 

如 果 transparent 生 效 ， 则 返回 true。 

Matcher 的 transparent-bounds 默认 为 false。 也 束 是 说 检索 范围 的 边界 在 顺序 环视 、 逆 序 环 视 和 单词 分 界 
符 * 考 察 "时 是 不 透明 的 。 这 样 ， 正 则 引擎 不 会 感知 到 检索 边界 之 外 的 字符 GES) 。 

也 就 是 说 尽管 检索 范围 的 起 始 位 置 可 能 在 某 个 单词 内 部 ， \b) 仍然 能 够 匹配 一 一 它 看 不 到 之 前 的 字 
RR 

下 面 的 例子 说 明了 transparent bounds 设 置 为 false〈 默 认 ) 的 情况 : 
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String regex = "\\bcar\\b"; // '\b car\b, 

String text = "Madagascar is best seen by car or bike."; 

Matcher m = Pattern.compile (regex) .matcher (text) ; 

m.region(7, text.length()); 

MELDA)? 

System.out.printin ("Matches starting at character T + m.start () ); 

结果 是 : tH AL US ee A eB EEE AEB, Nb 仍然 能 够 匹配 一 一 它 看 不 到 之 
前 的 字母 。 

Matches starting at character 7 

单词 分 界 符 的 确 匹 配 了 检索 范围 的 起 始 位 置 ， 即 “Madagas=car， 尽 管 此 处 根本 不 是 单词 的 边界 。 如 果 
不 设 定 transparent bounds, tila AFF S 〈Spoofed) ”了 。 

如 采 在 find 之 前 访 加 这 条 语句 : 

m.useTransparentBounds(true); 

ZERIE: 

Matches starting at character 27 

因为 边界 现在 是 透明 的 ， 引 擎 可 以 感知 到 起 始 边界 之 前 有 个 字母 人， 所 以 \by 在 此 处 无 法 匹配 。 于 是 
amet “PY earrorsbike.” 

同样 ，transparent-bounds 只 有 在 检索 范围 不 等 于 “整个 目标 字符 串 ” 时 才 有 意义 。 即 使 reset 方 法 也 不 会 重 
ENGE 

Anchoring bounds 

anchoring bounds 有 关 的 方法 有 : 

Matcher useAnchoringBounds(Boolean b) 

设置 matcher 的 anchoring-bounds 的 值 ， 默 认为 true。 

此 方法 会 返回 matcher 对 象 本 号 ， 故 可 用 于 方法 链 中 。 

boolean hasAnchoringBounds() 

WRH Y anchoring bounds， 则 返回 true， 人 否则 返回 false。 

默认 状态 下 ，anchoring bounds 为 true， 也 束 是 说 行 锚 点 (AAA $\z\Z) 能 匹配 检索 范围 的 边界 ， 即 检 有 系 
汪 围 不 等 于 人 整个 目标 字符 串 。 将 它们 设置 为 false 表 示 行 销 氮 只 能 匹配 检索 范围 内 ， 人 整个 目标 字符 串 中 符合 
规定 的 位 置 。 

禁用 anchoring bounds 的 理由 可 能 与 使 用 transparent bounds 一 样 ， 当 用 户 的 “光标 不 在 整 段 文本 的 起 始 位 
置 时 ”保证 语意 的 完备 。 

与 transparent-bounds 一 样 ，anchoring ” bounds 也 只 有 在 检索 江 围 不 等 于 “整个 目标 字符 串 * 时 才 有 意义 。 
即使 reset 方 法 也 不 会 重 置 它 。 


方法 链 


Method Chaining 
下 面 的 程序 初始 化 一 个 Matcher， 并 设 定 某 些 选 项 : 


Pattern p = Pattern.compile (regex); // 编译 regex 


Matcher m = p.matcher(text); // + regex 5 text 建立 联系 ,创建 Matcher 
m.region(5, text.length()); // 将 检索 范围 设 定 为 从 第 5 个 字符 开始 
m.useAnchoringBounds (false); // “^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m.useTransparentBounds (true) ; // FBS 1G A ARK ETB 





在 前 面 的 例子 中 我 们 看 到 ， 如 果 创 建 Matcher 之 后 不 再 需要 regex， 可 以 把 前 面 两 步 合 并 起 来 : 
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Matcher m = Pattern.compile (regex) .matcher (text) ; 
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不 过 ， 因 为 Matcher 的 两 个 方法 会 返回 Matcher 本 身 ， 可 以 把 它们 整合 成 一 行 〈 尽 管 因 为 排版 的 原因 必 
须 列 为 两 行 ) : 


Matcher m = Pattern.compile (regex) .matcher (text) .region(5, text.length () ) 
.useAnchoringBounds (false) .useTransparentBounds (true); 


TAREFF CA THIN, (AOR SE Tao POT IEE PR UA, TIEF H BE I ET M BI) Bo 
文档 ， 不 过 ， 好 的 文档 重 在 说 明 “ 为 什么 ”而 人 不是“ 干什么”?， 所 以 这 可 能 并 不 是 个 问题 。 在 第 399 页 的 程序 
中 ， 使 用 方法 链 可 以 保证 格式 紧 冯 消 晰 。 


构建 扫 插 程序 


Methods for Building a Scanner 

Java 1.5 的 matcher 提 供 了 两 个 新 方法 ，hitEnd 和 requireEnd， 它 们 主要 用 来 构建 扫描 程序 (Scanner) 。 
扫描 程序 将 字符 流 解 析 为 记号 (token) 流 。 举 例 来 说 ， 编 译 器 的 扫 拉 程序 会 把 “var: 二 .34 解析 为 三 个 记 
号 : INDENTIFIER-LESS_THAN- INTEGER. 

这 两 个 方法 帮助 扫 摘 程序 决定 ， 刚 刚 完 成 的 匹配 竹 试 鸭 结 末 是 否 应 该 用 来 解释 (interpretation ) 当前 输 
入 。 一 般 来 说 ， 只 要 其 中 一 个 返回 “true， 就 表示 在 做 出 决定 之 前 还 应 该 输入 更 多 的 数据 。 例 如 ， 如 果 当 前 
的 输入 数据 《比如 用 户 在 交互 式 调试 万 中 输入 的 命令 ) 是 蛙 个 字符 ‘<”， 最 好 还 是 看 看 下 一 个 字符 是 
否 “='， 才 能 决定 这 个 记号 是 LESS_THAN 还 是 LESS_THAN_OR_EQUAL。 

在 大 多 数 应 用 正则 表达 式 的 项 目 中 ， 这 两 个 方法 可 能 派 不 上 用 场 ， 可 是 一 旦 和 需要， 它们 就 是 不 可 莹 代 
的 。 在 这 些 不 第 见 的 场合 ，Java 1.5 中 hitEnd 方 法 存在 的 bug 束 很 让 人 恼火 。 不 过 ， 看 起 来 Java 1.6 已 经 修正 
了 这 个 错误 ，Java 1.5 中 的 解决 办 法 将 在 本 章 末 尾 介绍 。 

构建 扫 摘 程序 已 经 远 远 偏离 了 本 书 的 主 由 ， 所 以 我 只 会 介绍 些 上 其 体 方 法 的 定义 ， 并 给 出 例子 (如 果 你 
确实 需要 扫描 程序 ， 应 该 去 看 看 java.util.Scanner) 。 

boolean hitEnd() 

(Java 1.5 中 这 个 方法 是 不 可 徘 的 ， 解 决 办 法 参见 第 392 页 )。 

此 方法 表示 ， 正 则 引擎 在 上 一 次 匹配 竹 试 中 ， 是 人 否 检 查 了 输入 数据 结束 之 后 的 数据 《〈 而 无 论 上 一 次 匹 
配 是 否 成 功 ) 。 其 中 包含 Nb, MIS) 之 类 的 边界 检查 。 

如 果 hitEnd 返 回 tue， 则 输入 更 多 数据 可 能 会 改变 匹配 结果 (区 配 成 功 变 为 四 配 失 败 ，[ 匹 配 失 败 变 为 匹 
配 成 功 ， 或 者 匹配 文本 发 生变 化 ) 。 相 反 ， 如 果 返 回 false， 则 匹配 结果 已 经 确定 ， 输 入 更 多 的 数据 也 不 会 
改变 匹配 结果 。 

第 见 的 应 用 是 ， 如 果 [ 匹 配 成 功 ， 而 hitEnd 返 回 true， 则 必须 等 每 更 多 的 输入 数据 才能 最 后 做 出 决定 。 如 
FUL ACA, mM hitEndi& |] false， 应 该 期 得 更 多 的 输入 数据 ， 而 不 是 报告 语法 错误 。 

boolean requireEnd() 

LOTTIE JAA TE VL ACR ZA AM ERAN EMI S| EAN VOC AS ee A I i E R o 
Hite, WRrequireEndik Pltrue, BANA ARH Pe SULA SAA, ORK lAlfalse, BONA 
数据 可 能 改变 匹配 的 细节 ， 但 不 会 导致 匹配 失败 。 

第 见 的 应 用 是 ， 如 果 requireEnd 返 回 true， 在 最 后 做 出 决定 之 前 ， 必 须 接 受 更 多 的 输入 数据 。 

hitEnd 和 redquireEnd 痢 党 到 检索 范围 的 影响 。 

使 用 hitEnd 和 requireEnd 的 例子 

表 8-5 给 出 了 在 lookingAt 搜 索 之 后 使 用 hitEnd 和 requireEnd 的 例子 。 所 给 的 两 个 例子 虽然 很 简单 ， 但 足够 
解释 这 两 个 方法 。 














表 8-5: 在 lookingAt 搜 索 之 后 使 用 hitEnd 和 requireEnd 的 例子 
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正则 表达 式 hitEnd () | requierEnd () 








1 | \dt\bl [><]= 1234" 1234" | ie ine 
2 | \d+\bi [><] \1234°>*5677’ ‘R234.>.567’ | false 
3 \d+\b| [><] i T le false 
4 \d+\b| [><] | \>9567! E false 
5 | \d+\bl [><] | E false 
6 | \d+\b] [><] | \>=*567! 52.567 false 
7 | \dt\bl [><]= ‘oops’ 匹配 失败 

Q (set|setup) \b ‘se! 匹配 失败 

9 (set|setup) \b ‘set’ ‘set’ ` true 
10 | (set|setup)\b | ‘setu’ 匹配 失败 

ll | (set|setup) \b ‘setup’ ‘setup’ rue true 
12 | (set|setup) \b | \setex=3! ‘Sec°x=3’ \ / false 
13 | (set|setup) \b ‘setup’x’ ‘setup’x’ false 
14 | (set|setup)\b | ‘self’ 匹配 失败 

15 | (set|setup) \b ‘oops’ 匹配 失败 


表 8-5 中 上 面 7 行 的 正则 表达 式 寻 找 一 个 非 负 整数 以 及 4 个 比较 运算 符 : 大 于 、 大 于 等 于 、 小 于 、 小 于 等 
PI Ay AIE WREE Ta 寻找 单词 set 或 是 setup。 这 些 例子 很 简单 ， 但 能 说 明 问 题 。 

举例 来 说 ， 第 5 行 中 ， 虽 然 整 个 目标 字符 串 都 能 匹配 ，hitEnd 仍 然 会 返回 false。 islet 
本 包含 目标 字符 串 的 最 后 一 个 字符 ， 引 擎 也 不 需要 检查 之 后 的 字符 〈 无 论 是 字符 还 是 分 界 符 

hitEnd 的 bug 及 解雇 办 法 

Java 1.5 中 的 hitEnd 方 法 存在 bug (Java 1.6 已 经 修正 ) EZ) ， 在 某 些 特殊 情况 下 hitEnd 会 得 到 不 可 靠 
的 结果 : 在 不 区 分 大 小 写 的 匹配 模式 下 ， 如 果 正 则 表达 式 的 某 个 可 选 元 素 为 单个 字符 〈 尤 其 是 当 它 的 匹配 
尝试 失败 时 ) ， 就 会 出 错 。 

例如 ， 在 不 区 分 大 小 写 的 情况 下 使 用 >=? | 〈 它 作为 大 的 正则 表达 式 的 一 部 分 ) 会 诱发 这 个 错误 ， 
因为 =’ 是 可 选 的 单个 字符 。 在 不 区 分 大 小 写 的 情况 下 使 用 alanlthe | 〈 仍 然 是 包含 在 大 的 正则 表达 式 中 ) 

也 会 诱 友 这 个 错误 ， 因 为 单个 字符 a 是 众多 多 选 分 文 之 一 ， 因 此 是 可 选 的 。 
另 两 个 例子 是 values? | 和 Mr? \n\r? \n js 

解决 办 法 《解决 的 办 法 是 破坏 诱发 条 件 ， 或 者 禁用 不 区 分 大 小 写 的 匹配 《至 少 是 对 诱发 的 子 表 达 式 禁 

用 ) ， et 从 丛 换 为 其 他 元 系 ， 例 如 字符 组 ，。 
一 种 办 法 会 把 >=? | 替换 为 ”(? -i: >=? ) | ， 使 用 模式 修饰 范围 (110) 保证 不 区 分 大 小 写 

的 匹配 不 会 应 用 于 这 个 子 表 达 式 〈 这 里 不 存在 大 小 写 的 区 别 ， 所 以 这 种 办 法 完全 没 问 题 ) 。 

如 果 使 用 第 二 种 办 法 ， “alanlthe| 就 变 成 了 [aA]lanlthe| ， 代 表 了 使 用 Pattern.CASE_INSENSITIVE 进 
行 不 区 分 大 小 写 匹 配 的 情况 。 


Matcher 的 其 他 方法 
Other Matcher Methods 
这 些 Matcher 方 法 尚未 介绍 过 : 
Matcher reset() 


这 个 方法 会 重新 初始 化 Matcher 的 大 多 数 信 息 ， 弃 用 前 一 次 成 功 匹 配 的 所 有 信息 ， 将 匹配 位 置 指 同文 
本 的 开头 ， 把 检索 范围 384) TREAT TEE AOE PS Pp Barchering Pounds iton eerren hel 


388) 不 会 变化 。 
Matcher 有 三 个 方法 会 在 内 部 调用 reset， 因 此 也 会 重新 设 定 检 索 范 围 : replaceAll、replaceFirst， 以 及 只 
使 用 一 个 参数 的 find。 
这 个 方法 返回 Matcher 本 里 ， 所 以 它 可 以 用 在 方法 链 中 (389) 。 
Matcher reset(CharSequence text) 
r 这 个 方法 与 reset O 和 差不多， 但 还 会 把 目标 文本 改 为 新 的 String 〈 或 者 任何 实现 CharSequence 的 对 
e 
如 果 你 希望 对 多 个 文本 应 用 同样 的 正则 表达 式 〔 例 如 ， 对 所 读 入 的 文件 的 每 一 行 )， 使 用 reset 方 法 比 
多 次 创建 新 的 Matcher 更 有 效率 。 
这 个 方法 返回 Matcher 本 号， 所 以 可 以 用 在 方法 链 中 〈 喇 389) 。 
Pattern pattern() 
Matcher 的 pattern 方 法 返回 与 此 Matcher 关 联 的 Pattern 对 象 。 如 果 和 希望 观察 所 使 用 的 正则 表达 式 ， 请 使 用 
m.pattern () .pattern () ， 它 会 调用 Pattern 对 象 〈 名 字 相 同 ， 但 对 象 不 同 ) 的 pattern 方 法 (2394) 。 
Matcher p) 
从 Java 1.5 开 始 添 加 ， 这 个 方法 会 用 给 定 的 Pattern 对 象 蔡 换 当 前 与 Matcher 关 联 的 Pattern 对 象 。 这 个 方法 
所 以 能 够 在 文本 的 “当前 位 置 ? 开 始 使 用 不 同 的 pattern。 第 399 页 有 此 方法 实际 应 用 的 例子 
UW o 
这 个 方法 返回 Matcher 本 里 ， 所 以 可 以 用 在 方法 链 中 C2389) 。 
String toString() 
从 Java 1.5 中 添加 ， 这 个 方法 返回 包含 Matcher 基 本 信息 的 字符 串 ， 调 试 时 这 很 有 8 用。 字符 串 的 内 容 可 
能 会 变化 ， 在 Java 1.6 beta 中 是 这 样 : 
Matcher m = Pattern.compile("(\\wt)") .matcher ("ABC 123"); 
System.out.printin(m.toString()); 
met 
System. UE, printin(m.toString ()) ; 


结果 是 : 

java.util.regex.Matcher[pattern=(\w+) region=0,7 lastmatch=] 

java.util.regex.Matcher[pattern=(\w+) region=0,7 lastmatch=ABC] 

Java 1.4.2 的 Matcher 类 只 有 继承 上 自 java.lang.Object 的 toString 方 法 ， 它 返回 没什么 信息 售 量 的 字符 
$: ‘java.util.regex.Matcher@480457’ . 

查询 Matcher 的 目标 字符 串 

Matcher 关 没有 提供 奉 询 当前 目标 字符 串 的 方法 ， 但 有 些 办 法 经 过 了 这 种 限制 : 
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// 此 pattern 在 下 面 的 函数 中 使 用 ， 此 处 编译 并 保存 ， 是 为 了 提高 效率 


static final Pattern pNeverFail = Pattern.compile("%*") ; 


// 返 回 与 matcher *RKRH ARS HF 

public static String text(Matcher m) 

{ 
// 记 住 这 些 位 置 ， 以 备 之 后 恢复 
Integer regionStart = m.regionStart(); 
Integer regionEnd = m.regionEnd () ; 
Pattern pattern = m.pattern(); 


// 只 有 这 样 才能 返回 字符 串 
String text = m.usePattern (pNeverFail) .replaceFirst(""); 


// 恢 复 之 前 记录 的 位 置 


m.usePattern (pattern) .region(regionStart, regionEnd) ; 


// 返回 文本 
return text; 
} 
这 里 使 用 replaceFirst 方 法 ， 以 及 虚构 的 pattern 和 replacement 字 符 串 ， 来 取得 目标 字符 串 的 未 经 修改 的 副 
本 。 其 中 它 重 置 了 Matcher， 但 也 恢复 了 之 前 的 检索 范围 。 它 不 是 特别 好 的 解决 方案 (效率 也 不 是 很 高 ， 而 
日 即便 Matcher 的 目标 字符 串 可 能 是 其 他 类 型 也 会 返回 String) ， 但 是 在 Sun 给 出 更 好 的 办 法 之 前 ， 它 还 族 
ÆA 


O o 
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Pattern 的 其 他 方法 


Other Pattern Methods 
除了 主要 的 compile factories，Pattern 类 还 提供 了 一 些 辅助 方法 : 
split 


下 一 页 会 详细 讲解 两 种 形式 的 split 方 法 。 

String pattern() 

这 个 方法 返回 用 于 创建 本 pattern 的 正则 表达 式 字 符 串 。 

String toString() 

这 个 方法 从 Java 1.5 之 后 可 用 ， 等 价 于 pattern 方 法 。 

int flags() 

这 个 方法 返回 pattern 创 建 时 传递 给 compile factory 的 flag 参 数 〈 作 为 整数 ) 。 

static String quote(String text) 

从 Java 1.5 开始 提供 的 static 方法 ， 返 回 text 对 应 的 正则 文字 字符 串 ， 能 够 作为 Pattern.compile 的 参 
数 。 例 如 ，Pattern.quote ("main © " ) 返回 字符 串 AQmain O YE ， 作 为 正则 表达 式 它 解释 为 

\Qmain © \E ， 完 全 能 够 思 配 原始 的 参数 ‘main ©) ’. 

static boolean matches(String regex,CharSequence text) 

这 个 static 方 法 返回 的 Boolean 值 表示 正则 表达 式 能 售 匹 配 文 本 《与 matcher 方 法 的 参数 一 样 ， 可 以 是 一 
个 String 或 者 任何 实现 CharSequence 的 对 象 仿 373) 。 其 实 ， 它 等 价 于 : 

Pattern.compile(regex).matcher(text).matches(); 

OUR ie BEES, BAB A A ce te AOA Ee BT, WU AEA ZIP A INE o 

WRIST ITE iin BE URAL CBE, EAR, Be ZS A Da FS), Fase EU eA UF 
详 为 一 个 Pattern 对 象 ， 然 后 每 次 应 用 的 效率 会 高 很 多 。 


Pattern 的 Split 方 法 ， 单 个 参数 


Patter n's split Method,with One Argument 

String[ | split(CharSequence text) 

pattern 的 这 个 方法 接收 文本 (一 个 CharSequence 对 象 )， 然 后 返回 一 个 数组 ， 包 含 由 这 个 pattem 对 应 的 
正则 表达 式 在 其 中 的 匹配 分 隔 的 文本 。String 类 的 split 方 法 也 提供 了 同样 的 功能 。 

String[ | result=Pattern.compile( " \\. " ).split( " 209.204.146.22 " ); 

返回 4 个 字符 串 构 成 的 数组 (‘209?、‘204?、‘146? 和 ‘22;) ， 由 文本 中 的 三 个 .| 分 隔 。 这 个 简单 例子 
只 用 单个 字符 分 隔 ， 但 其 实 我 们 可 以 使 用 任何 正则 表达 式 。 例 如 ， 你 可 以 用 非 字 母 和 数字 的 字符 把 一 个 字 
符 串 粗略 地 分 为 “单词 ”: 

String[] result=Pattern.compile( " \W+ " ).split(Text); 











如 果 给 出 的 字符 串 是 VUUR POC ， 则 返回 4 个 字符 串 Cowhat’s ‘ss “up's Doc’) ， 由 这 个 
表达 式 的 3 ”次 匹配 (如果 包含 非 ASCI 文本 ， 你 可 能 需要 使 用 \P{L}+| 或 『[Ap{Ljp{N} ]| 而 不 是 
\W+| 2367) 分 隔 。 

相 邻 匹配 之 间 的 空 元 素 

如 有 果 正 则 表达 式 能 够 在 文本 的 最 开头 匹配 ， 返 回 数组 的 第 一 个 元 素 应 该 是 空 字符 串 〈 这 是 一 个 合法 的 
字符 串 ， 但 是 不 包括 任何 字符 ) 。 同 样 ， 如 果 正 则 表达 式 能 够 在 霖 个 位 置 匹配 两 砍 以 上 ， 应 该 返回 空 字符 
串 ， 因 为 邻近 的 匹配 “分 割 " 了 和 零 长 度 的 文本 。 例 如 

String[] result=Pattern.compile ("\\s*, \\s* " ) .split(", one, two, , , 3") ; 按照 两 边 可 能 出 
现 空白 字符 的 逗号 来 分 割 ， 返 回 一 个 5 个 元 素 的 数组 : 空 字 符 串 、'one'、'two'、 两 个 空 字 符 串 和 ?3?。 

序列 末尾 出 现 的 所 有 衬 字 符 串 都 会 被 包 略 : 

String[] result=Pattern.compile( " : " ).split( " xx] | J; | | | | | Linux{ | | | www .linuxidc.com | | | | 





这 样 会 得 到 两 个 字符 串 : 一 个 空 学 符 串 和 ‘xx’。 如 果 希 望 保留 这 些 元 系 ， 请 使 用 下 面 介 绍 的 双 参 数 版 
本 的 split。 


Pattern 的 Split 方 法 ， 两 个 参数 


Pattern's split Method,with Two Arguments 

String|] split(CharSequence text,int limit) 

XS ARASH split 77 1 He 1 £2 Fill pattem WA HK BL, UA Re Reb REEMA ERER. String 
类 的 split 方 法 也 可 以 获得 同样 效果 。 

limit 参 数 等 于 0， 大 于 0， 还 是 小 于 0， 各 有 意义 。 





limit 小 于 0 

如 朵 limit 小 于 0， 束 会 你 留 数 组 结尾 的 空 元 系 。 

String[] result=Pattern.compile( " : " ).split( " :xx: " ,-1); 

返回 包含 3 个 字符 串 的 数组 (一 个 空 字 从 串 ，‘xx”， 然 后 是 为 一 个 空 学 从 串 ) 。 
limit 等 于 0 

把 limit 设 置 为 0， 等 于 不 设置 limit， 所 以 不 会 保留 结尾 的 空 元 素 。 

limit 大 于 0 


如 果 limit 大 于 0， 则 split 返 回 的 数组 最 多 包括 limit 个 元 素 。 也 束 是 说 ， 正 则 表达 式 至 多 会 应 用 limit-1 
次 。《〈 如 采 limit=3， 则 需要 2 次 匹配 来 分 割 3 个 字符 串 ) 。 
进行 limit-1 次 匹配 之 后 ， 死 配 人 停止， 目标 字 符 毕 中 其 余 的 部 分 〈 在 最 后 一 次 匹配 之 后 的 文本 ) 会 作为 
结果 数组 的 尾 元 系 。 
ORAS FAT FB OTP 
Friedl, Jeffrey,Eric Francis, America,Ohio,Rootstown 
并 且 和 希望 得 到 头 三 个 部 分 ， 你 可 以 将 字符 串 分 割 为 4 个 部 分 〈 头 3 个 部 分 是 名 字 ， 然 后 是 最 后 的 “其 
FIFE) : 
String[] NameInfo = Pattern.compile(",").split(Text, 4); 
// NameInfo[0] + 
// NameInfo[1] 是 名 
// NameInfo[2] 是 中 名 (这 里 中 名 包 揪 两 个 词 ) 
// NameInfo[3] 是 其 他 部 分 ， 因 为 这 里 没 用 ， 直 接 忽略 
为 split 设 置 limit 的 理由 在 于 ， 如 果 不 需 要 更 多 地 人 处理， 它 可 以 用 来 停止 查找 其 他 的 字符 串 、 创 建新 字 
人 符 串 ， 限 制 数组 的 长 度 ， 提 高 效率 。 提 供 limit 能 够 限制 工作 量 。 
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拓展 示例 


Additional Examples 
为 Image Tag is JH TE RE AU tay FE JB E 


Adding Width and Height Attributes to Image Tags 

Ze Se, Mii in-place) ARB, (ACMHTML, WEMA image tag 都 包含 WIDTH 
和 HEIGHT 属 性 (HTML 2 StringBuilder. StringBuffer, 447 {ttCharSequence) 。 

REA — BAAR ALE HEA EE, BLA Rekk Th RE, AA eh a 7 Se A 
ZA > UIA FET OTF. WRASSE EM RY, SCA hoo Ay AAEE, ORE 
户 会 感觉 页 面 读 取 速度 更 快 〈 注 8) 。 

如 果 找 到 image tag， 程 序 会 寻找 SRC、WIDTH 和 HEIGHT 属 性 ， 如 果 存 在 ， 提 取 他 们 的 值 。 如 果 
WIDTH 和 HEIGHT 有 一 个 不 存在 ， 残 先 取 回 图 像 ， 计 算 尺 寸 ， 然 后 补充 上 属性 。 如 果 WIDTH 和 HEIGHT 都 
没有 ， 就 按照 图 像 的 真实 尺寸 来 设置 这 些 属性 。 如 果 存 在 一 个 ， 束 只 需要 算出 为 一 个 属性 ， 它 的 值 是 按 比 
例 计 算出 来 的 〈 人 例如， 如果 WIDTH 是 真实 尺寸 的 一 半 ， 则 添加 的 HEIGHT 的 值 也 是 真实 高 度 的 一 半 ; 现代 
的 浏览 右 束 是 这 样 处 理 的 ) 。 和 第 383 页 的 代码 一 样 ， 这 个 程序 手动 维护 匹配 指针 。 它 还 使 用 了 检索 范围 
(1384) 和 方法 链 CS 389) 。 代 码 如 下 : 
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// 匹配 独立 的 <img> tags 
Matcher mImg = Pattern.compile("(?id)<IMG\\st+(.*?)/?>") .matcher (html); 
// 匹配 独立 的 tag 中 的 SRC、 WIDTH 和 HEIGHT 属性 (所 用 的 表达 式 很 简单 ) 
Matcher mSrc = Pattern.compile("(?ix)\\bSRC =(\\S+)") .matcher (html); 
Matcher mWidth = Pattern.compile ("(?ix) \\bWIDTH =(\\S+)") .matcher (html); 
Matcher mHeight= Pattern.compile ("(?1ix) \\bDHEIGHT=(\\S+)") .matcher (html); 
int imgMatchPointer = 0; // 第 一 次 搜索 从 字符 串 起 始 位 置 开始 
while (mimg.find(imgMatchPointer) ) 
{ 
imgMatchPointer = mImg.end(); // 下 一 次 查 找 从 这 里 开始 
// 在 刚刚 找到 的 tag 中 查找 各 字段 
Boolean hassrc = mSrc.region( mImg.start(l), miImg.end(1) ).find(); 
Boolean hasHeight = mHeight.region( mImg.start (1), mImg.end(1) ).find(); 
Boolean hasWidth = mWidth.region( mImg.start (1), mImg.end(1) ).find() 
// 如 果 提 供 了 SRC 属性 ， 但 是 没 提供 WIDTH 和 /或 HEIGHT ... 
if ( hasSrc && (! hasWidth || ! hasHeight) ) 
{ 
java.awt.image.BufferedImage i = //RR AR 
jJavax.imageio.ImagelIO.read(new jJava.net.URL(mSrc.group(1))); 
String size; // 存 放 未 提供 的 WIDTH 和 /或 HEIGHT 属性 
if (hasWidth) 
// 得 到 了 width, krett height 
size = "height='" + (int) (Integer.parseInt(mWidth.group(1)) * 
i.getHeight() / i.getWidth()) + "' "; 


F 


else if (hasHeight) 

// 得 到 了 height, 根据 比例 计算 width 

Size = "width='" + (int) (Integer.parseInt (mHeight.group(l1)) * 

i.getWidth() / i.getHeight()) + "' "; 

else // 两 个 属性 都 没 提 供 ， 按 实际 情况 处 理 

size = "width='" + i.getWidth() + "' " + 

"height="" + i.getHeight() + "' "; 

html.insert(mImg.start(1), size); // 原 地 修改 HTML 
imgMatchPointer += size.length(); // 更 新 匹配 指针 


! 
尽管 这 例子 很 有 教育 意义 ， 但 还 是 有 少数 地 方 没 考虑 到 。 因 为 这 个 例子 的 重点 在 于 本 地 查找 和 蔡 换 ， 
尽 可 能 地 简化 了 其 他 方面 ， 对 需要 处 理 的 HTML 进 行 了 理想 的 假设 。 例 如 ， 正 则 表达 式 不 容许 属性 的 等 号 
两 边 出 现 室 白 ， 属 性 中 不 会 出 现 引 号 〈 参 考 第 202 页 的 Penl 正 则 表达 式 ， 可 以 得 到 有 实际 意义 的 ，Java 版 本 
的 tag 属 性 匹配 的 办 法 ) 。 这 个 程序 不 能 处 理 相对 URL， 也 不 能 处 理 格式 错误 的 URL， 也 不 能 处 理 获取 图 像 
的 代码 抛 出 的 任何 异常 
不 过 ， 这 个 例子 仍然 说 明了 几 个 重要 的 概念 。 


对 于 每 个 Matcher， 使 用 多 个 Pattern 校 验 HTML 
Validating HTML with Multiple Patterns Per Matcher 


我 们 也 可 以 用 Java 来 写 校 验 简 单 HIML 的 程序 C2132) 。 这 段 代码 通过 usePattern 方 法 实时 更 换 


Matcher 的 pattern。 这 样 能 够 处 理 多 个 以 \G | FAR 进行 对 应 的 操作 。 请 参考 第 132 页 的 内 容 了 解 
eae i ! PPEP ai Linu tT www_linuxidc.com “fo 


此 方法 的 更 多 细节 。 


Pattern 
Pattern 
Pattern 
Pattern 
Pattern 
Pattern 
Pattern 


Boolean 
Matcher 


pAtEnd = Pattern.compile("\\G\\z"); 

pWord = Pattern.compile("\\G\\wt") ; 

pNonHtml = Pattern.compile("\\G[*\\w<>&]+"); 

piImgTag = Pattern.compile ("\\G(?1)<img\\s+([*>]+)>"); 
pLink = Pattern.compile ("\\G(?i) <A\\st+([*>]+) >"); 
pLinkx = Pattern.compile("\\G(?i) </A>") ; 

pEntity = Pattern.compile("\\Gé& (#\\d+;\\wt);"); 
needClose = false; 


m = pAtEnd.matcher (html); // #4 Pattern * RAR AEA R Matcher 对 象 


while (! m.usePattern (pAtEnd) .find()) 


{ 


if (m.usePattern(pWord).find()) 1 


. m.group() 包含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 


} else if (m.usePattern(pImgTag).find()) { 


包含 image tag, HERES IE... 


} else if (! needClose && m.usePattern(pLink).find()) { 


有 超 链接 ， 验 证 . . 


needClose = true; 

} else 1f (needClose && m.usePattern(pLinkx).find()) { 
System. out. println("/LINK [" + msgroup() + "]™); 
needClose = false; 

} else if (m.usePattern(pEntity).find()) { 

// 容许 出 现 &gt; 和 &#123; 之 类 的 entity 

} else if (m.usePattern(pNonHtml).find()) 1 

// 容许 出 现 其 他 非 单 词 的 非 HTML 代码 


} else { 


cf 


完全 无 法 匹配 ,肯定 出 了 错 ， 在 此 处 选取 一 段 文 字 用 于 错误 输出 


m.usePattern (Pattern.compile("\\G(?s).{1,12}")).find(); 
System.out.println("Bad char before '" + m.group() + "'"); 
System.exit(1); 


if (needClose) { 
System.out.println("Missing Final </A>"); 
System.exit(1); 


Al Ajava.util.regexfbug, JFHTMLAVEAC SS ABN EN BI, ZA AAR” Be BH SA, 
所 以 我 把 这 段 程 序 放 在 最 后 。 这 个 bug 仍然 存在 ， 只 是 表现 为 错误 输出 中 缺少 第 一 个 字符 。 我 已 经 把 这 个 


bug 提 交 给 Sun。 


此 bug 没 有 修正 之 前 ， 该 如 何 使 用 单个 参数 的 find 方 法 来 解决 此 问题 呢 ? 请 翻 到 下 页 查看 答案 。 
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在 单个 参数 的 fnd0 中 使 用 多 个 Pattern 


o 第 399 页 问题 的 答案 
在 第 399 页 的 程序 中 ,java.util.regex 人 错误 地 设置 了 matcher 的 “当前 位 置 ”所 以 
下 一 次 查找 会 从 错误 的 位 置 开始 。 我 们 可 以 绕 过 这 个 bug， 自 己 记录 “当前 位 置 *， 使 
用 党 个 参数 的 find 从 此 位 置 开 始 查找 ， 
程序 中 修改 的 部 分 以 高 亮 显 示 : 

Pattern pWord = Pattern.compile ("\\G\\wt"); 


Pattern pNonHtml Pattern.compile ("\\G[*\\w<>&]+"); 
Pattern pImgTa Pattern.compile ("\\G(?1)<img\\st+([*%>]+) >"); 


Pattern pLink = Pattern.compile ("\\G(?1)<A\\s+([*>]+)>"); 
Pattern pLInkX = Pattern.compile("\\G(?1)</A>"); 

Pattern pEntity = Pattern.compile ("\\G& (#\\d+|\\wt)i")? 
Boolean needClose = false; 


Matcher m = pWord.matcher(html); // #4 Pattern I} #AhfE4 my Matcher 对 章 
Integer currentLoc = 0; 
while (currentLoc < html.length () ) 
{ 
if (m.usePattern(pWord) .find(currentLoc)) | 
。 阳 .GEOuUP () 包含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 
} else if (musePattern (pImgTag) .find (currentLoc)) | 
折合 image tag, #é&A Gis... 
} else if (! needClose && m.usePattern (pLink) .find(currentLoc)) | 
... ABBE, BE... 
needClose = true; 
} else if (neéedClose && m.usePattern (pLinkx) .find(currentLoc)) | 
System.out.printin("/LINK [" + m.group() + “"J]")3 
neeaClose = false; 
} else if (m.usePattern(pEntity).find(currentLoc)) | 
// See Megt; #64123; 2R 89 entity 
} else if (m.usePattern(pNonHtml).find(currentLoc)) { 
// 容许 出 现 其 他 非 单 词 的 非 HTML 代码 
} else { 
// RERKRKER, FELTR, £4st242R-AC SAT RRA 
m.usePattern (Pattern.compile ("\\G(?s).{1,12}")) .find(currentLoc) ; 
System.out.println("Bad char at '" + m.group() + T); 
system.exit (1); 
} 
currentLoc = m.end(); //“ 妆 前 位 置 ” 指 向 上 关 匹 配 的 结 是 
} 
if (needClose) 1 
System.out.printin("Missing Final </A>"); 
Ssystem.exit (1); 
} 


与 之 前 的 程序 不 同 , 这 里 调用 find 时 指定 了 检索 的 开始 偏 移 值 , 所 以 不 必 指 定 region。 
不 过 ， 你 可 以 自己 维护 这 小 reglion， 在 每 次 find 之 前 恰当 地 调用 region, 
m.usePattern (pWord) .region(start, end) .find(currentLoc) 
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解析 CSV 文 档 


Parsing Comma-Separated Values (CSV) Text 
这 里 是 用 java.util.regex 写 的 解析 CSYV 的 例子 《参见 第 6 Bt 271) 。 这 里 的 程序 使 用 占有 优先 量词 Cm 
142) 取代 固化 分 组 ， 因 为 这 样 看 起 来 更 清楚 。 


String regex = // 双 引 号 字段 保存 到 group (1) ， 非 引号 字段 保存 到 group (2) 


ANGT g) Nn" 
" gpi AD 
# ELARI FFA 20s \n"+ 
i i OPRIG Ka+ 
j L PTE e TY PPI rF] Wn 
\" 砷 结束 双 引 号 人 
as \a™ 
" # 非 引用 ， 非 过 与 文本 ... \n"+ 
" T a Wn 
" as 


// 根据 上 面 的 表达 式 创建 matcher， 解 析 其 中 的 一 行 CSV 文档 
Matcher mMain = Pattern.compile(regex, Pattern.COMMENTS) .matcher (line); 
// 创建 匹配 "的 matcher， 目 标 文本 暂时 为 虚构 


Matcher mQuote = Pattern.compile("\"\"") .matcher(""); 


while (mMain.find() ) 
{ 
String field; 
if (mMain.start(2) >= 0) 
field = mMain.group(2); // 非 引 号 字段 ， 直 接 使 用 
else 
// 引用 字段 ， 用 单 引 号 替换 两 个 相连 的 引号 
field = mQuote.reset (mMain.group(1l)).replaceAll("\"") ; 


// 现在 处 理 字段 的 内 容 ... 
oveten SULsprintini"Field [™ + field +t | 
| 
这 个 程序 比 第 217 页 的 原始 程序 效率 要 局 很 多 ， 原 因 在 于 : 正则 表达 陈 效 率 更 局 ， 按 照 第 6 章 第 271 页 介 
绍 的 办 法 ， 重 复 使 用 单个 Matcher (通过 蛙 个 参数 版 本 的 reset 方 法 ) ， 而 没有 不 断 创 建 -回收 Mather。 
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Java RA AF 


Java Version Differences 

本 章 开 头 已 经 提 到 ， 本 书 主要 针对 Java 1.5.0。 不 过 ， 目 前 Java 1.4.2 仍 然 在 广泛 应 用 ， 而 Java 1.6 已 经 整 
WER CART S betak, (AASIRIRA TIES) 。 所 以 ， 我 得 简要 地 提 一 下 1.4.2 和 1.5.0 (Update 7) 
之 间 的 差异 ， 以 及 1.5.0 和 目前 的 1.6“build 599” HE F - 


1.4.27111.5.0-2 [i] HY) Ae 


Differences Between 1.4.2 and 1.5.0 

相对 Java 1.4.2, Java 1.5.0 添 加 了 许多 新 的 方法 。 大 多 数 新 的 方法 主要 是 为 了 文 持 Matcher 的 检索 范围 。 
此 外 ，Unicode 文 持 也 升级 并 提高 了 效率 。 所 有 的 变化 都 在 下 面 两 节 详 细 介 绍 〈 注 9) 。 

1.5.0 中 的 新 方法 

与 检索 范围 相关 的 Matcher 方 法 都 没有 出 现在 Java 1.4.2 中 : 


eregion 





eregionStart 

eregionEnd 

euseAnchoringBounds 

e@hasAnchoringBounds 

euseTransparentBounds 

ehasTransparentBounds 

Java 1.4.2 也 不 包含 下 面 的 方法 : 

etoMatchResult 

ehitEnd 

erequireEnd 

eusePattern 

etostring 

Java 1.4.2 不 包含 下 面 这 个 static 方 法 : 

ePattern.quote 

1.4.2 和 1.5.0 关 于 Unicode 文 持 的 差异 

1.4.2 和 1.5.0 在 Unicode 相 关 的 问题 上 有 这 些 变 化 : 

eJava 1.4.2 的 Unicode 使 用 的 是 Unicode Version 3.0.0，1.5.0 使 用 的 是 Unicode Version 4.0.0。 这 个 改变 影 
啊 到 很 多 方面 ， 例 如 字符 的 定义 〈 例 如 ， 在 Version ”3.0.0 中 ，\uFFFF 之 后 是 没有 代码 点 的 ) ， 以 及 属性 和 
Unicode 区 块 的 定义 。 

e 增 强 了 通过 \p{...}| APL...) 引用 区 块 的 方式 (参加 Java 关于 Character.UnicodeBlock 的 文档 ， 
得 到 区 块 列表 及 其 正式 名 称 )〉。 





Java 1.4.2 中 有 的 规则 是 “去 挥 官方 代码 块 名 字 中 的 空格 ， 和 开头 的 In”。 这 样 ， 区 块 引 用 就 类 似 
\p{InHangulJamo} 和 \p{InArabicPresentationForms-A}。 
1.5.0 这 加 了 两 种 新 的 区 块 命 名 。 可 以 在 官方 块 名 称 之 前 直接 琴 加 "7 ， 所 以 名 字 可 以 为 


\p{InHangul-Jamo}#ll\p{InArabic:Presentation:-Forms-A}. tH PJ UA Java h K RAR SIA A In’? (是 官方 
ARR, EASE AEP AF SPA FE) \p{InHangul_Jamo} #ll\p{InArabic_Presentation_Forms_A}. 

eJava 1.4.2 存 在 一 个 古怪 的 bug，Arabic Presentation Forms-B 和 Latin Extended-B 结 尾 的 “B” 必 须 写 
作 “Bound”， 也 就 是 说 \p{InArabicPresentationForms-Bound} 和 和 \p{InLatinExtended-Bound}。 

eJava 1.5.0 中 Character 类 的 isSomeing 方 法 支持 正则 表达 式 CS 369) 。 


1.5.0 和 1.6 之 间 的 差异 


Differences Between 1.5.0 and 1.6 [| 日 日 Linux[| |] www.linuxidc.com [| L] 





写作 本 书 时 已 经 发 布 的 1.6 和 1.5.0 在 正则 表达 式 的 问题 上 只 有 两 个 细微 的 欠 列 : 
eJava 1.6 提 供 了 之 前 没有 的 对 Pi 和 Pf 的 Unicode 分 类 的 支持 。 
o |\Q...E| 结构 的 bug 已 经 修正 了 ， 上 所 以 在 字符 组 中 可 以 正常 工作 。 
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第 9 章 .NET 


NET 

Microsoft 的 .NET Framework 中 可 以 使 用 Visual Basic. C# FIC++ (以 及 其 他 许多 语言 ) ，.NET 提 供 了 
公用 的 正则 表达 式 库 ， 统 一 了 不 同 语言 之 间 的 正则 表达 式 语 意 。 它 的 引擎 特性 完备 ， 功 能 强大 ， 容 许 我 们 
在 速度 和 便利 之 间 求 得 最 大 的 均衡 〈 注 1) 。 

每 种 语言 在 处 理 对 象 和 方法 时 都 有 不 同 的 语意 ， 但 是 某 些 基本 的 对 象 和 方法 在 所 有 语言 中 都 是 相通 
的 ， 所 以 不 管 使 用 哪 种 语言 编号 的 复杂 例子 ， 都 可 以 直接 转换 到 .NET 语 言 父 件 中 的 其 他 语言 中 。 本 章 中 的 
例子 使 用 Visual Basic. 

与 之 前 各 章 的 联系 在 开始 本 章 的 内 容 之 前 必须 说 明 ， 第 1 到 6 章 的 基础 知识 对 理解 本 章 非 常 重 要 。 我 猜 
测 ， 有 些 只 对 .NET 有 兴趣 的 读者 可 能 会 从 本 章 开始 阅读 这 本 书 ， 我 希望 他 们 认真 地 读 一 读 前 言 〈( 尤 其 是 体 
eBoy) ALATA EE: 第 1、2、3 章 介 绍 了 与 正则 表达 式 相 关 的 基本 概念 、 特 性 和 技术 ， 第 4、5、6 章 
介绍 了 一 些 理解 正则 表达 式 的 天 键 知识 ， 它 们 可 以 下 接应 用 到 .NET 的 正则 表达 式 中 。 前 几 间 讲解 的 重要 概 
念 包 括 NFA 引 擎 进行 史 配 的 基本 原理 、 匹 配 优先 性 、 回 调和 效率 。 

接 下 来 要 强调 的 是 ， 除 了 用 于 速 租 列表 例如 本 章 的 第 407 页 ， 和 第 3 章 从 第 114 页 到 第 123 页 ， 我 并 
不 硕 望 这 本 书 成 为 参考 手册 ， 而 希望 它 成 为 精通 正则 表达 式 的 详细 教科 书 。 

本 章 首 先 介 绍 .NET 的 正则 访 派 ， 包 括 元 字符 的 文 持 事 宜 ， 以 及 .NET 程 序 员 必须 面 对 的 特殊 问题 。 然 后 
是 忌 括 .NET 中 正则 表达 式 相 关 的 对 象 模 型 ， 详 细 讲 解 大 于 核心 地 位 的 ， 与 正则 表达 式 相 关 的 类 。 最 后 用 例 
子 来 说 明 ， 如 何 将 预先 构建 好 的 正则 表达 式 封 狼 到 共 圣 的 装配 件 (assembly〉 中， 组 成 个 人 的 正则 表达 式 
E. 
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.NET 的 正则 流派 


.NET's Regex Flavor 

.NET 使 用 的 是 传统 型 NFA 引 擎 ， 所 以 第 4、5、6 草 讲解 的 NFA 的 知识 都 运用 于 .NET。 下 一 页 的 表 9-1 人 简 
要 说 明了 .NET 的 正则 流派 ， 其 中 大 部 分 已 经 在 第 3 章 介 绍 过 。 

在 接收 正则 表达 式 的 函数 和 结构 中 设置 标志 位 Clag) ， 或 是 在 正则 表达 式 之 内 使 用 「 ©? modes- 
modes) | 和 (? mods-mods: ...) | 结构 ， 可 以 使 用 不 同 的 匹配 模式 ， 流 派 的 许多 方面 也 会 因此 发 生变 
化 (号 110) 。408 页 的 表 9-2 列 出 了 这 些 模式 。 

其 中 包括 了 Mm\w | 之 类 的 “ 纯 ” 转 义 。 它 们 可 以 直接 用 到 ”VB.NET ”的 字符 串 文字 (" \w" ) MICH 
verbatim FIFE (@"\w") 中 。C++ 的 语言 没有 提供 针对 正则 表达 式 的 字符 串 文 字 ， 所 以 正则 表达 式 中 的 
反 和 斜 线 在 字符 串 文 本 中 需要 双 写 (" \Ww" ) 。 请 参考 “作为 正则 表达 式 的 字符 串 ”(101) 。 

下 面 是 对 表 9-1 的 补充 说 明 : 

CNb 只 有 在 字符 组 内 部 才 作 为 退 格 符 。 在 字符 组 之 外 ，\Yb 匹 配 单词 分 界 符 C133) 。 

区 井 井 容许 出 现 两 位 十 六 进 制 数字 ， 例 如 \xFCber| 匹配 “iiber'。 

WH HH HAYA RAO AAS, Plu fu00FCber| 匹配 '*iber"， Tvu20AC | 匹配 © 。 

@).NET Framework Version 2.0 中 的 字符 组 支持 集合 减法 ， 例 如 | [a-z-[aeiou]] | 表示 小 写 的 非 元 音 ASCII 
字母 C2125) 。 在 字符 组 内 部 ， 连 字符 之 后 又 跟 独 字符 组 表示 字符 组 的 减法 运算 ， 城 去 后 面 字符 组 内 部 的 
字符 。 

(BNw、\d 和 和 \s (以 及 对 应 的 W、\D 和 \S) 通常 能 处 理 所 有 合适 的 Unicode 字 符 ， 但 是 如 果 启 用 了 
RegexOptions.ECMAScript (号 412) ， 就 只 能 处 理 ASCII 字 符 。 

在 此 默认 模式 下 ，\w 匹配 Unicode 属性 \p{Ll}、\p{Lu}、\p{Lt}、\p{Lo}、\p{Nd} 和 \p{Pc}。 请 注意 ， 
其 中 并 没有 \p{Lm}〈 请 参考 第 123 页 的 属性 列表 〉。 

表 9-1: NET 正 则 表达 式 流 派 概 览 
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字符 缩 略 表示 法 














#115 (c) \a [\b] \e \£f \n \r \t \v\octal \x## \u#### \cchar 
字符 组 及 相关 结构 

#118 字符 组 : […] [^…] (TARR 125) 

#119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 

#120 (c) 字符 组 缩 略 表示 法 : \w \d \s W \D \S 

®]121 (c) Unicode 属性 和 区 块 ”: \p{Prop} \P{Prop} 

错 点 及 其 他 堆 长 度 断 言 

F129 | 行 /字符 串 起 始 位 置 ^\A 

会 129 IFA PRE: $ \z Z 

# 130 当前 匹配 的 起 始 位 置 ”: NG 

F133 单词 分 界 符 : \b \B 

2133 环视 结构 : (Par) (21e) (?<=…) (?<!…) 
注释 及 模式 修饰 符 

135 模式 修饰 符 : (2mods-mods) 容许 出 现 的 模式 : x s min (7408) 
4135 模式 修饰 范围 : (?mods-mods:…) 

136 (EAE: (2f) 

分 组 及 捕获 

#137 捕获 型 括号 : (…) \L \2… 

F436 对 称 分 组 : (?<name-name>…) 

409 ay %, 4h HE AH: (2<name> =) \k<name> 

& 137 仅 分 组 的 括号 : (?:…) 

F139 固化 分 组 : (?>…) 

F139 多 选 结构 : | 

14] 匹配 优先 量词 : * +? {n} {n,} {x,y} 

14] 忽略 优先 量词 : *? +? ?? {n}? {n,}? {x,y}? 

F109 条 件 判 断 : (?ifthen|else) 一 一 “i 部 分 可 以 是 环视 、(num) 或 (name) 
(c) 一 一 可 用 于 字符 组 内 部 WD……(D 见 说 明 


在 默认 模式 下 ，\s 匹 配 | [-\fn\r\t\\x85\p{Z}]) ，U+0085 是 Unicode 中 的 NEXT LINE 控 制 字符 ，\p{Z} 匹 


配 Unicode 的 “分 隔 符 ”字符 C7122) 。 


(Np{...} 和 \P{...} 支 持 标 准 的 Unicode 属 性 和 区 块 (和 针对 Unicode Version 4.0.1) 。 不 支持 Unicode 字 苹 


区 块 名 要 求 出 现 ' "前 缀 《参考 第 125 页 的 表格 ) ， 只 能 够 使 用 含有 空格 或 者 下 画 线 的 格式 。 例 如 ， 


\p{Is_Greek_Extended}#l\p{Is Greek Extended} 是 不 容许 的 ， 正 确 的 只 有 \p{IsSGreekExtended} 。 


NET 只 支持 V{Lu} 之 类 的 短 名 称 ， 而 不 支持 p 困 oPPTF?s 个 LE 名 区 六 的 长 和 名称 w nna cheer [| 


用 花 括 号 〈 也 就 是 说 ， 不 能 把 \p{L} 简 记 为 DRL) 。 请 参考 第 122 和 第 123 页 的 表格 。 

NET 也 不 文 持 特殊 的 复合 属性 TD{L&}， 以 及 特殊 属性 \p{Al}、\p{Assigned} 和 \p{Unassigned}。 相 反 ， 
你 可 以 使 用 (? s: .) j> AP{Cn | 、 \p{Cn} | 分 别 来 代 符 。 

GNG 表 示 上 一 次 匹配 的 结束 位 置 ， 虽 然 文档 介绍 说 它 表 示 本 次 匹配 的 开头 位 置 〈 嗓 130) 。 

© 顺序 环视 和 逆序 环视 中 都 可 以 使 用 任意 形式 的 正则 表达 式 。 残 我 所 知 ，.NET 正 则 引擎 是 唯一 容许 在 
逆序 环视 中 出 现 能 够 匹配 任意 长 度 文 本 表达 式 的 引擎 C133) 。 

@ ”RegexOptions.ExplicitCapture 选 项 (也 可 通过 模式 修饰 符 (? n) 设 定 ) 会 禁止 普通 的 C.. | 括 
号 的 捕获 功能 。 不 过 明确 命名 的 捕获 型 括号 一 一 例如 1 (? <num>\d+) | 一 一 仍然 有 效 C138) 。 如 果 
使 用 了 命名 分 组 ， 此 选项 容许 你 使 用 更 加 美观 的 (.……) | ， 而 不 是 『 (? : ...) | ， 来 进行 纯粹 的 分 组 。 

表 9-2: NET 的 匹配 模式 和 正则 表达 式 模 式 








RegexOptions 选项 说 明 
.Singleline 点 号 能 匹配 任何 字符 (7111) 
.Multiline FRM f'san (W111) 
.IgnorePatternWhitespace LA RAIDED! Fe it FER KX, (72) 
.IgnoreCase 进行 不 区 分 大 小 写 的 匹配 
.ExplicitCapture n 关闭 (…))1 的 捕获 功能 , 只 有 (<name>) ] Ae 
够 捕获 (7412) 
ECMAScript | BRA VW," \ site \ aur at ASCI 字符 有 效 (412) 
-RightToLeft 传动 装置 的 驱动 过 程 不 变 ， 但 是 万 向 相反 (MF 
符 串 的 末尾 开始 ， 向 开头 移动 ) 。 不 幸 的 是 这 个 
选项 会 有 问题 (7411) 
.Compiled 多 花 些 时 间 优 化 正则 表达 式 , 这 样 应 用 时 匹配 更 
迅速 (7410) 
对 于 流派 的 补充 


Additional Comments on the Flavor 

下 和 面 介绍 一 些 其 他 的 相关 细节 。 

命名 捕获 

NET 支持 命名 捕获 CS 138) ， 它 通过 1' (? <name>...) | BRE! (? mame'...) | 实现 。 这 两 种 办 法 
是 等 价 的 ， 可 以 随意 选用 其 中 一 种 ， 不 过 我 更 喜欢 二.…. >， 因为 我 相信 使 用 它 的 人 多 一 些 。 

要 反 向 引用 命名 捕获 匹配 的 文本 ， 可 以 使 用 \k<name> | 或 是 \k'name'| 。 

在 匹配 之 后 (也 就 是 Match 对 象 生成 之 后 ; 下 文 从 第 416 页 开始 概要 介绍 .NET 的 对 象 模型 ) ， 命 名 捕获 
匹配 的 文本 可 以 通过 Match 对 象 的 Groups (name) 属性 来 访问 (C# 使 用 Groups[name]) 。 

在 replacement 字 符 串 中 C2424) ， 命 名 捕获 的 结果 通过 ${fname} 来 访问 。 

菏 些 情况 下 ， 可 能 需要 投 数 字 顺 序 访 问 所 有 的 分 组 ， 所 以 命名 捕获 的 分 组 也 会 被 标 上 序号 。 它 们 的 编 
号 从 所 有 未 命名 的 分 组 之 后 开始 : 





1 13 32 2 
'(\w) (?<Num>\d+) (\s+)) 
本 例 中 ， 我 们 可 以 用 Groups C" Num" ) 或 Groups (3) 来 访问 '\d+) 匹配 的 文本 。 这 两 个 名 字 对 应 同 
— “NST 2 O O O  Linux{] |] www.linuxide.com [| [] 





MERER 

— ATL FAMAE E Be RAL MM A EER, MERRE S E R EAE 
捕获 分 组 的 编号 顺序 。 如 果 捕 获 型 括号 用 于 Split (7425) ， 或 者 在 replacement 字 符 串 中 使 用 了 ‘$+ C 
424) ， 编 写 束 很 午 要 。 

条 件 测试 

如 果 C? if thenlelse) | 中 的 站 部 分 (号 140〉 可 以 使 用 任意 类 型 的 环视 结构 ， 也 可 以 在 括号 中 使 用 捕 
锋 分 组 的 编写， 或 者 是 命名 分 组 的 名 字 。 这 里 出 现 的 纯 文本 (或 者 纯正 则 表达 式 ) 会 被 目 动 当 作 肯定 型 顺 
序 环视 来 处 理 ( 也 就 是 说 ， 可 以 将 其 看 作 '(? =...) | 包围 的 结构 )。 这 可 能 带 来 麻烦 : 例如 ，“.… C 
(Num) ”thenlelse)...| 中 的 1 (Num) | 会 变 为 | (? =Num) | 〈 也 就 是 顺序 环视 的 'Num”) ， 如 果 在 正 
则 表达 式 的 其 他 地 方 没有 出 现 ”〈? <Num>...) | 时 会 这 样 。 如 果 存 在 这 样 的 命名 捕获 ，if 判 断 的 就 是 它 
征 售 捕 获 成 功 。 

我 推荐 不 要 依赖 这 种 “自动 化 顺序 环视 Cauto-lookaheadfication) ”， 而 明确 使 用 C? =...) | 把 意图 传 
达 给 看 程序 的 人 ， 这 样 如 采 正 则 引擎 在 未 来 修改 了 让 语法， 也 不 会 市 来 意外 。 

“编译 好 的 ”正则 表达 式 

在 前 面 几 章 ， 我 使 用 “编译 (compile) ”这 个 词 来 摘 述 所 有 正则 表达 式 系 统 中 ， 在 应 用 正则 表达 式 之 前 
必须 做 的 准备 工作 ， 它 们 用 来 检查 正则 表达 式 是 否 格 式 规范 ， 并 将 其 转换 为 能 够 实际 应 用 的 内 部 形式 。 
~ 的 正则 表达 式 中 ， 它 的 术语 是 “解析 (parsing) ”。.NET 使 用 两 种 意义 的 “编译 ”来 指 涉 解 析 阶 段 的 优 

下 面 是 增进 优化 效果 的 细节 : 

offir (Parsing) ”程序 在 执行 过 程 中 ， 第 一 次 过 到 正则 表达 式 时 必须 检查 它 是 否 格 式 规 郊 ， 并 将 其 转 
换 为 适 于 正则 引 敬 实际 应 用 的 内 部 形式 。 此 过 程 在 本 书 的 其 他 部 分 称 为 “编译 (compile) ”。 

e 即 用 即 编译 (On-the-Fly Compilation) 在 构建 正则 表达 式 时 ， 可 以 指定 RegexOptions.Compiled 选 项 。 
它 告 诉 正则 引 警 ， 要 做 的 不 仅 是 此 表达 式 转 换 为 菜 种 默认 的 内 部 形式 ， 而 是 编译 为 后 层 的 MSIL (Microsoft 
Intermediate Language) 代码 ， 在 正则 表达 式 实 际 应 用 时 ， 可 以 由 JIT (“Just-In-Time” 编 译 器 〉 优 化 为 更 快 
ASEH AL ai CES o 
n TE iM ii BEE Be E & AEREE, (ECE A BI A TE WU PETA ER AS ZA ETT OARE 
HT. 

oP PEAY IE MSTA SR 一 个 (或 多 个 ) Regex 对 象 能 够 封 痛 到 DLL (Dynamically Loaded Library， 例 如 
REWEL) 中 ， 保 存在 酸 盘 上 。 这 样 其 他 的 程序 也 可 以 直接 调用 它 。 称 为 “编译 猴 配 件 
(assembly) ”. WB “IEMA IAT RMT” C434) 获得 更 多 信息 。 

如 果 使 用 RegexOptions.Compiled 来 进行 “ 即 用 即 编译 ”的 编译 ， 在 局 动 速度 ， 持 续 内 存 占用 和 [匹配 速度 
LIA], AREA IRN KA: 


标 准 不 使 用 RegexOptions.Compiled 使 用 RegexOptions.Compiled 

















启动 速度 较 慢 (最 多 提升 60 倍 ) 
内 存 占 用 多 (每 个 表达 式 占用 5-15KB) 
匹配 速度 最 多 能 提升 104 


在 程序 第 一 次 过 到 正则 表达 式 时 进行 初始 的 正则 表达 式 解 析 〈 默 认 情 况 ， 即 不 用 RegexOp- 
tions.Compiled) 相对 来 说 是 很 快 的 。 即 使 在 我 这 全 有 年 头 的 550MHz NT 的 机 器 上 上 ， 每 秒 钟 也 能 进行 大 约 1 
500 次 复杂 编译 。 如 果 使 用 RegexOptions.Compiled， 则 速度 下 降 到 每 秒 25 次 ， 每 个 正则 表达 陈 需 要 多 占用 大 
约 10KB 内 存 。 

更 重要 的 是 ， 在 程序 的 执行 过 程 中 ， 这 块 内 存 会 一 直 占 用 它 无 法 释放 。 

在 对 时 间 要 求 不 严格 的 场合 使 用 RegexOptions.Compiled 无 疑 是 很 有 意义 的 ， 在 这 里 ， 速 度 是 很 重要 
的 ， 盛 其 是 需要 处 理 大 量 的 文本 时 更 是 如 此 。 另 一 方面 ， 如 采 正 则 表达 陈 很 和 洽 单 ， 需 要 处 理 的 文本 也 不 是 
很 多 ， 这 样 做 吏 没 有 意义 。 如 果 情 况 不 是 这 样 黑白 分 明 ， 访 如 何 选择 残 不 那么 容 多 了 必须 基体 情况 共 
体 分 析 ， 以 进行 取舍 。 

某 些 情况 下 ， 把 编译 的 正则 表达 式 作 为 “编译 寻 的 PF 正则 对 靖 插 闭 民 加 I 中 邮 级 砍 信 公用 id 最 线程 序 | 




















所 上 丘 的 内 存 更 少 《〈《 因 为 不 必 冯 载 编译 正则 表达 陈 所 需 的 包 ) ， 装 载 速度 更 快 〈( 因 为 在 DLL 生成 时 它们 已 经 
编译 好 了 了 ， 只 需要 直接 使 用 即 可 〉。 为 一 个 不 错 的 副产品 束 是 ， 表 达 式 还 可 以 供 其 他 需要 的 程序 使 用 ， 所 
以 这 是 一 种 组 建 个 人 正则 表达 式 库 的 好 办 法 。 请 参考 第 435 册 的 “使 用 半 配 件 构 建 日 己 的 正则 表达 式 库 ”。 

MA E Æ H IL Ae 

长 期 以 来 ， 正 则 表达 式 的 开发 人 员 一 直 哎 饥 看 “ 反 同 (backwards)“” 逻 配 ( 即 从 右 问 左 ， 而 不 是 从 左 问 
A) 。 对 开发 人 员 来 说 ， 最 大 的 问题 可 能 是 ,“ 从 石 同 左 ” 的 匹配 到 辰 是 什么 意思 ? 是 整个 正则 表达 式 都 需 
要 反 过 来 吗 ? 还 是 说 ， 这 个 正则 表达 式 仍 然 在 目标 字符 串 中 进行 笃 试 ， 只 是 传动 冯 置 从 结尾 开始 ， 驱 动 过 
程 从 右 问 左 进行 ? 

抛 开 这 些 纯粹 的 概念 ， 看 个 具体 的 例子 : 用"\d+ | 匹配 字符 串 ‘123-and-456’。 我 们 知道 正常 情况 下 结 
果 是 '123:， 根 据 直 觉 ， 从 右 同 左 匹 配 的 结果 应 该 是 "456:。 不 过 ， 如 果 正 则 引擎 使 用 的 规则 是 ， 从 字符 串 末 
尾 开 始 ， 驱 动 过 程 从 左 同 右 进 行 ， 结 采 可 能 融会 出 乎 意料 。 在 采 些 语意 下 ， 正 则 引擎 能 够 正音 工作 《从 开 

‘nx ASG, ° lem > 
始 的 位 置 向 右 “ 看 ") ， 所 以 第 一 次 尝试 ae) 是 在 ^,， 这 里 无 法 匹配 。 第 二 次 尝试 在 “0 
'"， 这 里 能 够 匹配 ， 所 以 驱动 过 程 开始 “考察 "位置 ‘6?， 这 当然 可 以 匹配 \d+ | ， 所 以 最 后 的 结果 是 6。 

.NEI 的 正则 表达 式 提 供 了 RegexOptions.RightToLeft 的 选项 。 但 它 完 竟 是 什么 意义 呢 ? 答案 是 :“ 这 问 
题 值得 思索 。” 它 的 语音 没有 文档 ， 我 测试 了 也 无 法 找到 规律 。 在 许多 情况 下 一 一 例如 ‘123.and456”， 它 给 
出 符合 直 沉 的 结 采 《也 就 是 “456”) 。 

不 过 ， 有 时 候 也 会 报告 没有 匹配 结 末 ， 或 是 匹配 跟 其 他 络 末 相 比 坚 无 意义 的 文本 。 

如 果 需 要 进行 从 右 问 左 的 匹配 ， 你 可 能 会 发 现 ，RegexOptions.RightToLeft 似乎 能 得 到 你 期 望 的 结果 ， 
但 是 最 后 ， 你 会 发 现 这 样 做 得 冒 风险 。 

反 和 锋线 -数字 的 二 义 性 

数字 跟 在 反 斜 线 之 后 ， 可 能 表示 十 进 制 数 的 转 义 ， 也 可 能 是 反 同 引用 。 到 搬 应 该 如 何 处 理 ， 取 决 于 是 
否 指 定 了 RegexOptions.ECMAScript 选 项 。 如 果 你 不 关心 其 中 的 细微 差别 ， 不 妨 一 直 用 '\k<num>> | 表示 反 
向 引用 ， 或 者 在 表示 十 进 制 数 时 以 0 开头 〈 例 如 \08| ) 。 这 两 种 办 法 不 受 RegexOptions.ECMAScript 的 影 
IE 

如 果 没 有 使 用 RegexOptions.ECMASCript， 从 '\1, 到 '\9) 的 单个 转 义 数字 通常 代表 反 向 引用 ， 而 以 0 
开头 的 转 义 数字 通常 代表 十 进 制 转 义 〈 例 如 ， \012| 匹配 ASCII 的 进 纸 符 linefeed) ， 除 此 之 外 的 所 有 情 
况 下 ， 如 果 “ 有 意义 ”《〈 也 了 吏 是 说 茶 个 正则 表达 式 中 有 足够 多 的 捕获 型 括号 ) ， 数 字 者 会 被 作为 反问 引用 来 
处 理 。 否 则 ， 如 琳 数 字 的 值 处 于 \000 和 \377 之 则 ， 束 作为 十 进 制 转 义 。 例 如 ， 如 果 捕 获 型 括号 的 数目 多 于 
12, WW '\12) 会 作为 反 向 引用 ， 否 则 就 会 作为 十 进 制 数字 ，。 

下 一 节 详 细 讲 解 RegexOptions.ECMAScript 的 语意 。 

ECMAScript 模 式 

ECMAScript 的 基础 是 一 种 标准 版 本 的 JavaScript( 注 2)〉 ， 还 包含 了 它 目 己 的 解析 和 应 用 正则 表达 式 的 
语意 。 如 果 使 用 RegexOptions.ECMAScript 选项 ，.NET 的 正则 表达 式 就 会 模拟 这 些 语意 。 如 果 你 不 明白 
ECMASCript 的 含义 ， 或 者 不 需要 羔 容 它 ， 束 完全 可 以 忽略 该 市 。 

如 果 启 用 了 RegexOptions.ECMASCript， 将 会 应 用 下 面 的 规则 : 

eRegexOptions.ECMAScript 只 能 与 下 面 的 选项 同时 使 用 : 

RegexOptions.IgnoreCase 


RegexOptions.Multiline 
RegexOptions.Compiled 


ewWw、\d、\s、\WW、\D、\S 只 能 匹配 ASCII 字 符 。 

e 正 则 表达 式 中 的 反 斜 线 - 数 字 的 序列 不 会 有 反 回 引用 和 十 进 制 转 义 的 二 义 性 ， 它 只 能 表示 反 回 引用 ， 
即使 这 样 需要 截断 结尾 的 数字 。 例 如 ，“ ©...) \10) 中 的 \10| 会 被 处 理 为 ， 第 1 组 捕获 性 括号 匹配 的 文 
本 ， 然 后 是 文字 ‘0’。 























[| 日 日 Linux[| || www.linuxidc.com [] [] 


使 用 ,NET 正则 表达 式 


Using.NET Regular Expressions 

NETIEWI RATER A, WAW, Ise REM PE Se OR BRE. HRA AK ANY IE URIA x 
ELBE RR, LAAHR SE AR. MOMS, Sn MISH, TRE, AINE Ae TR 
WEIR ATE. Rie SAR TR AES SEAE, Pa Dis IK AN A LE A ES E NET 4) ENK 
EAs 





正则 表达 式 快 速 入 门 


Regex Quickstart 
即使 不 需要 知道 正则 类 模型 (regex class model) 的 细节 ， 也 可 以 直接 上 手 使 用 .NET 的 正则 表达 陈 包 。 
理解 细 记 能 够 让 我 们 获得 更 多 的 信息 ， 提 高 工作 效率 ， 但 是 下 面 这 些 简 单 的 例子 没有 明确 创建 任何 正则 
类 ， 细 市 将 在 例子 之 后 提 到 。 
使 用 正则 表达 式 库 的 程序 必须 在 文件 的 开头 写 上 下 面 这 条 语句 ， 下 面 的 例子 假设 此 句 已 经 存在 : 
Imports System.Text.RegularExpressions 
下 面 的 例子 都 能 正常 处 理 String 变 量 TestStr。 本 草 的 所 有 例子 中 ， 选 用 的 变量 名 都 以 斜体 标注 。 
快速 入 门 : 在 字符 串 中 寻找 匹配 
这 上 段 程序 检 杜 一 个 正则 表达 式 是 人 奋 能 匹配 字符 串 : 
If Regex.IsMatch(TestStr, “*\s*5$"™) 
Console.WriteLine ("line is empty") 
Else 
Console.WriteLine("line is not empty") 
End If 


这 个 例子 使 用 了 匹配 模式 : 
If Regex.IsMatch(TestStr, "*“subject:", RegexOptions.IgnoreCase) 
Console.WriteLine("line is a subject line") 
Else 
Console.WriteLine("line is not a subject line") 
End If 
快速 入 门 : 匹配 ， 获 得 匹配 文本 
这 个 例子 显示 正则 表达 式 实 际 匹配 的 文本 。 如 果 没 有 匹配 ，TheNum 束 是 空 字符 串 。 
Dim TheNum as String = Regex.Match (TestStr，"\dq+") .Value 
If TheNum <> "" 
Console.WriteLine("Number is: " & TheNum) 
End If 
这 个 例子 使 用 了 一 个 匹配 模式 : 


Dim ImgTag as String = Regex.Match(TestStr, "<img\b[*>]*>", | 
RegexOptions.IgnoreCase) .Value 











TT ma <2 oe 
Console.WriteLine("Image tag: " & ImgTag) 
End If 
快速 入 门 : 匹配 ， 获 得 捕获 文本 
这 上 段 程序 以 字符 串 的 形式 返回 第 1 个 捕获 分 组 的 匹配 文本 : 
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Dim Subject as String = 


Regex.Match(TestStr, "“Subject: (.*)").Groups(1).Value 
LE SubJecgp <> as 

Console.WriteLine ("Subject is: " & Subject) 
End If 


请 注意 ， 在 C# 中 应 使 用 Groups[J 本 取代 Groups (1) 。 
下 面 的 程序 目的 相同 ， 只 是 使 用 了 match 选 项 : 
Dim Subject as String = | 
Regex.Match(Teststr, “subjects (saw) ss _ 
RegexOptions.IgnoreCase) .Groups (1) .Value 
Lt Subject <> ™ 
Console.WriteLine ("Subject is: " & Subject) 
End If 


仍然 是 相同 的 程序 ， 只 是 使 用 命名 捕获 : 
Dim Subject as String = _ 
Regex,.Match (Teststir, "subject? (?<Subjy>.")", _. 
RegexOptions.IgnoreCase) .Groups ("Subj") .Value 
Le Supyece <> "= 


Console.WriteLine ("Subject is: " & Subject) 
End If 


快速 入 门 : 查找 和 替换 

这 个 例子 把 输入 的 字符 串 转 换 为 HIML“ 安 全 ”的 字符 ， 把 特殊 的 HTML 转换 为 HTML entity: 
TestStr = Regex.Replace(TestStr, "&", "&amp;"™) 
TestStr = Regex.Replace(TestStr, "<", "&lt;") 
TestStr = Regex.Replace(TestStr, ">", "&gt;") 
Console.WriteLine("Now safe in HTML: " & TestStr) 


replacement 字 符 串 (第 3 个 参数 ) 的 处 理 是 很 特殊 的 ， 第 424 页 的 补充 内 容 做 了 讲解 。 例 如 ， 在 
replacement 字符 串 中 ，'&c: 会 被 正则 表达 陈真 正 匹 配 的 文本 所 蔡 代 ， 下 面 的 例子 给 大 写 的 单词 添加 <<B 
>...</B>: 

TestStr = Regex.Replace(TestStr, "\b[A-Z]\w*", "<B>S&</B>") 
Console.WriteLine ("Modified string: " & TestStr) 
XP PIF IE<B>... </B> 《〈 使 用 不 区 分 大 小 与 的 匹配 ) BRID... </>: 


TestStr = Regex.Replace(TestStr, "<b>(.*?)</b>", "<I>$1</I>", 
RegexOptions.IgnoreCase) 
Console.WriteLine ("Modified string: " & TestStr) 


EL Wa, 
Package Overview 


通过 丰 亩 而 便捷 的 奖 结 构 ， 可 以 使 用 .NET 正 则 表达 去 几乎 所 有 的 功能 。 下 面 这 个 完整 的 控制 合 程序 ， 
提供 了 关于 整个 包 的 概览 ， 它 明确 使 用 各 种 对 象 来 进行 简单 的 匹配 。 
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Option Explicit On ' 使 用 正则 表达 式 时 并 非 必须 这 样 写 
Option Strict On  ' 但 这 样 做 是 个 好 习惯 
' 简化 正则 表达 式 相关 的 类 的 访问 


Imports System.Text.RegularExpressions 


Module SimpleTest 
Sub Main () 
Dim SampleText as String = "this is the lst test string" 
Dim R as Regex = New Regex("\d+\w+") '#7#it4 pattern 
Dim M as Match = R.match(SampleText) ' 应 用 到 字符 串 中 
If not M.Success 
Console.WriteLine ("no match") 
Else 
Dim MatchedText as String = M.Value 'S1m2eR 
Dim MatchedFrom as Integer = M.Index 
Dim MatchedLen as Integer = M.Length 
Console.WriteLine("matched [" & MatchedText & "]" & | 
" from char#" & MatchedFrom.ToString() & 


" for " & MatchedLen.ToString() & " chars.") 
End If 


End Sub 

End Module 

通过 命令 行 提示 符 来 执行 ， 把 Ndw 应 用 到 同样 的 文本 ， 结 果 是 : 
matched [1st] from char#12 for 3 chars. 

导入 正则 表达 式 名 字 空间 


你 注意 到 程序 头 部 的 Imports System.Text.RegularExpressions 了 吗 ? 任何 用 到 .NET 正 则 对 象 的 VB 程序 
都 必须 瑟 上 这 一 条 语句 ， 才 能 通过 编 详 。 


C# 中 对 应 的 是 : 
using System.Text.RegularExpressions; //C # F MiX A 5 
这 个 例子 说 明了 基本 的 正则 对 象 的 用 法， 下 面 两 行 主要 行为 : 


Dim R as Regex = New Regex("\d+\wt") 编译 这 个 pattern 
Dim M as Match = R.match(SampleText) "应 用 到 字符 串 中 
也 可 以 合并 为 一 行 : 
Dim M as Match=Regex.Match (SampleText, "\d+\w+" ) JFIF E MH pattern 
合并 的 写法 更 容易 使 用 ， 程 序 员 逢 要 输入 的 代码 更 少 ， 需 要 记录 的 对 象 也 更 少 。 不 过 ， 它 的 效率 会 和 


微 低 一 些 Ce 432) 。 在 下 面 几 页 中 ， 我 们 首先 会 看 到 原始 的 对 象 ， 然 后 学 习 “ 便 捷 ? 国 数 ， 例 如 静 态 函 数 
Regex.Match， 以 及 合适 的 使 用 时 机 。 


为 简便 起 见 ， 在 程序 户 段 的 例子 中 ， 我 会 省 略 下 面 这 几 行 
Option Explicit On 
OPELON, SEPLStE On 
Imports System.Text.RegularExpressions 


本 书 的 第 96、99、204、219 和 237 页 出 现 过 VB 的 例子 ， 回 顾 它 们 也 许 有 所 帮助 。 
RAL XT Fe a, 








Core Object Overview 
在 深入 细节 之 前 ， 先 来 看 看 .NET 的 正则 对 象 模型 。 对 象 模型 是 一 套 类 结构 ， 正 则 表达 式 的 各 种 功能 通 
TENKE NETH ENHE ARE EPRICE BERL KPT ELE REEMA comt 


是 下 一 页 的 图 9-1 所 示 的 3 个 类 一 一 即 可 ， 它 们 展示 了 对 “May* 16, 1998 EAMH \s+ Cd+) | 的 过 程 。 
Regex 对 象 
第 一 步 是 创建 Regex 对 象 ， 例 如 : 
Dim R as Regex=New Regex( " \s+(\d+) " ) 
在 这 里 ， 我 们 用 一 个 Regex 对 象 表 示 |\s+ (\d+) | ， 将 其 保存 在 变量 R 中 。 获 得 Regex 对 象 之 后 ， 我 们 
可 以 通过 Match (text) 方法 将 其 应 用 到 一 段 文 本 ， 返 回 与 第 一 次 匹配 绪 有 末 相 天 的 信息 : 
Dim M as Match=R.Match( " May 16,1998 " ) 





"\s+(\d+)" 









构造 函数 
Regex 
了 Object 
Match f"MaYe1l6,s1998") 
Ý 
Object Object 









NextMatch() ~a Match.Empty 
Object 
i Groups.Count 


Groups.Count 





































f Index r Index Success 
， Lengu Groups (1) ， aaa Groups (1) i 
Groups (0) value Groups (0) Value 
、 Success 、 Success 2 false 
4 | Group Group 4° | Group Group 
Object Object Object Object 
Index Index Index Index 
Length Length Length Length 
| Value Value Value Value 
3 Ve. 4 [sucess 7 pom 8 [sucess 
3 2 | 5 4 
*e16" "36" "21998" "1998" 
true true true true 
图 9-1: .NET 正 则 表达 式 相 关 对 象 模型 
Match 对 象 


Regex 对 象 的 Match C...) 方法 通过 创建 并 返回 Match 对 象 来 提供 匹配 信息 。Match 对 象 有 多 个 属性 ， 包 
括 Success《〈 一 个 表示 匹配 是 否 成 功 的 Boolean 值 ) 和 Value 《如果 匹配 成 功 ， 则 保存 实际 匹配 文本 的 副 
本 ) 。 稍 后 我 们 会 看 到 Match 的 所 有 属性 的 列表 。 

Match 对 象 返 回 的 细 币 中 还 包括 捕获 型 插 号 所 匹配 的 文本 。 前 面 Perl 的 例子 使 用 $1 保 存 第 一 组 捕获 型 插 
号 匹配 的 文本 。.NET 提 供 了 两 种 办 法 : 如 果 要 取得 纯 文 本 ， 可 以 按照 索引 值 访 问 Match 对 象 的 Groups 属 
性 ， 例 如 Groups (1) .Value， 它 等 价 于 Perl 的 $1〈 请 注意 ，C 夫 中 使 用 的 是 Groups[1 .Value) 。 另 一 个 办 法 
是 使 用 Result 方 法 ， 请 参考 第 429 页。 

Group 对 象 

前 一 段 中 的 Groups (1) 其 实 是 对 Group 对 象 的 团 用 | OFF ICL Arete] Tes vane bites xidlendeatieF l 





对 应 的 文本 ) 。 每 一 组 捕获 型 括号 都 对 应 一 个 Group 对 象 ， 另 外 还 有 一 个 “虚拟 分 组 (virtual group) ”， 其 
编号 为 0， 它 体 存 全 局 匹配 的 信息 。 

因此 ，MatchObj.Value 和 MatchObj.Groups (0) .Value 是 等 价 的 都 是 全 局 匹配 的 文本 的 副本 。 第 
一 种 写法 更 加 人 简洁 方便 ， 但 我 们 必须 知道 存在 编写 为 0 的 分 组 ， 因 为 MatchObj.Groups.Count (也 就 是 Match 
关联 的 分 组 的 数目 ) GETE. WE s+ Cd+) | 能 够 匹配 成 功 ，MatchObj.Groups.Count 的 值 就 是 2〈 标 
号 为 0 的 全 局 匹配 和 $1) 。 











Capturex} & 
Capturex} RAYE AIF AWE, ESB 437 ITZ 
匹配 时 会 计算 出 所 有 结果 


把 正则 表达 式 应 用 到 字符 串 中 ， 得 到 一 个 Match 对象 ， 此 时 所 有 的 结果 匹配 的 位 置 ， 每 个 捕获 分 组 
匹配 的 内 容 等 ) 都 会 计算 出 来 ， 封 装 到 Match 对 象 中 。 访 问 Match 对 象 的 属性 和 方法 ， 包 括 它 的 Group 对 象 
(及 其 属性 和 方法 ) 只 是 取 回 已 经 计算 好 的 结 
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核心 对 象 详解 


Core Object Details 

概览 完毕 ， 来 看 细节 。 首 先 ， 我 们 来 看 如 何 创建 Regex 对 象 ， 然 后 来 看 如 何 将 其 应 用 到 字符 串 ， 生 成 
Match 对 象 ， 以 及 如 何 处 理 这 个 Match 对 象 科 它 的 Group 对 象 。 

在 实践 中 ， 很 多 时 候 不 必 明 确 创建 ”Regex 对 象 ， 不 过 明确 创建 看 起 来 更 顺眼 ， 所 以 在 讲解 核心 对 象 
时 ， 每 次 都 会 创建 它们 。 稍 后 我 会 告诉 你 .NET 提 供 的 简便 方法 。 

在 下 面 的 列表 中 ， 我 会 忽略 从 Object 类 继承 而 来 的 ， 很 少 用 到 的 方法 。 


创建 Regex 对 象 


Creating RegexObjects 
Regex hJ #4) ta Ph BUF ANI IR TEA Ue PB CEA IEMA FT), Be EP TB aL 
(一 个 正则 表达 式 和 一 组 选项 ) 。 下 面 是 一 个 参数 的 例子 : 
Dim StripTrailWS=new Regex ("\s+$" ) ' 去 挥 结尾 的 空白 字 和 从 
它 只 是 创建 Regex， 做 好 应 用 前 的 准备 :而 没有 进行 任何 匹配 。 
下 面 是 使 用 两 个 参数 的 例子 : 
Dim GetSubject=new Regex( " Asubject:(. * ) " ,RegexOptions.IgnoreCase) 
这 里 多 出 了 一 个 RegexOptions 选 项 ， 不 过 可 以 用 OR 运算 从 连接 多 个 选项 ， 例 如 : 
Dim GetSubject = new Regex("“subject: (.*)", 
RegexOptions.IgnoreCase OR RegexOptions.Multiline) 
4H ARI 
如 果 正 则 表达 式 包 含 了 元 字符 的 非法 组 合 ， 束 会 抛 出 ArgumentException。 通 党 ， 如 果 用 户 知 道 所 使 用 
的 正则 表达 式 能 够 正常 工作 ， 束 不 需要 捕获 这 个 弄 第 ， 不 过 如 果 使 用 程序 “之 外 ”( 例 如 由 用 户 输 入 ， 或 者 
从 配置 文件 谈 入 ) 的 正则 表达 式 ， 束 必须 捕获 这 个 寞 第 。 
Dim R As Regex 
Try 
R = New Regex (SearchRegex) 
Catch e As ArgumentException 
Console.WriteLine("*ERROR* bad regex: " & e.ToString) 
Exit Sup 
End Try 
WR, ATT OLAI AN Ta], Ce por WU) Be a Ja AY Be m eA A] A: 你 可 能 需要 进行 其 他 的 处 理 ， 而 不 
AM ve MIFE ill S Ag OH Th a is o 
Regexizt Jil 
在 创建 Regex 对 象 时 ， 可 以 使 用 下 面 的 选项 : 
RegexOptions.IgnoreCase 
此 选项 表示 ， 在 应 用 正则 表达 式 时 ， 不 区 分 大 小 写 C2110) 。 
RegexOptions.IgnorePatternWhitespace 
此 选项 表示 ， 正 则 表达 式 应 该 按照 自由 格式 和 注释 模式 C111) 来 解析 。 如 果 使 用 单纯 的 「#... 注 
释 ， 请 确认 在 每 一 个 馆 辑 行 的 末尾 都 有 换行 符 ， 人 否则 第 一 处 注释 会 “注释 挥 ?之 后 的 整个 正则 表达 却 。 
在 VB.NET 中 ， 我 们 可 以 用 chr (10) 来 实现 ， 例 如 : 
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Dim R as Regex = New Regex( _ 


"# 匹配 一 个 浮上 总 数 ... "& chr(10) & _ 
" \d+(2?:\.\d*) ? # 开头 是 整数 部 分 ... " è chr(10) & | 
"| a aoe " @ che(10) & _ 
" \.\d+ E FREDA", _ 


RegexOptions.IgnorePatternWhitespace) 
RMR BR, VB.NET 提 供 了 更 简便 的 1 (? #...) | 注释 : 


Dim R as Regex = New Regex( _ 


" (?# 匹 配 一 个 浮 点 数 ... )" & 
-Wer [9 hn WO (?# 开 头 是 整数 部 分 . . . )"& 
"| (PHA... y" & 
es No (?# 开 头 是 小 数 扣 | "a 


RegexOptions.IgnorePatternWhitespace) 


RegexOptions .Multiline 


此 选项 表示 ， 正 则 表达 式 在 应 用 时 应 采用 增强 的 行 锚 点 模式 C112) 。 也 就 是 说 ， I^| 和 TS) 能 够 匹 
配 字 符 串 内 部 的 换行 从， 而 不 仅仅 是 匹配 整个 字符 串 的 开 尖 和 结尾 。 

RegexOptions.Singleline 

此 选项 表示 ， 正 则 表达 式 使 用 点 号 通 配 模 式 (111) 。 此 时 点 号 能 够 匹配 任意 字符 ， 也 包括 换行 符 。 

RegexOptions.ExplicitCapture 

此 选项 表示 ， 普 通 括号 ”(.…) | ， 在 正常 情况 下 是 捕获 型 括号 ， 但 此 时 不 捕获 文本 ， 而 是 与 | (? : 
.…) | 一 样 ， 只 分 组 ， 不 捕获 。 此 时 只 有 命名 捕获 括号 '(? <name>...) | 能 够 捕获 文本 。 

如 果 使 用 了 命名 分 组 ， 又 希望 使 用 非 捕获 型 括号 来 分 组 ， 就 可 以 使 用 正常 的 '(...)〉 | 括号 和 此 选项 ， 
这 样 程序 看 起 来 更 清晰 。 

RegexOptions.RightToLeft 

此 选项 表示 ， 进 行 从 右 问 左 的 匹配 C2411) 。 

RegexOptions.Compiled 

此 选项 表示 ， 正 则 表达 却 应 该 在 实际 应 用 时 和 被 编 诺 ， 成 为 高 度 优化 的 格式 ， 这 样 通 各 会 大 大 提高 匹配 
速度 。 不 过 这 样 会 增加 第 一 次 使 用 时 的 编 诺 时 间 ， 以 及 程序 执行 期 间 的 内 存 占用 。 

如 条 正 则 表达 却 只 需要 应 用 一 次 ， 或 者 应 用 并 不 是 很 频 素 ， 吏 没 必 要 使 用 Regex Options.Compiled, 
为 即使 这 个 Regex 对 象 已 经 被 回收 ， 多 占 的 内 存 也 不 会 释放 。 不 过 如 果 正 则 表达 陈 在 对 时 间 要 求 很 高 的 场 
合 应 用 ， 这 个 选项 可 能 非常 有 价值 。 

在 第 237 页 的 例子 中 ， 使 用 这 个 选项 减少 了 大 约 一 半 的 测试 时 间 。 还 可 以 参考 天 于 编 详 到 妆 配 件 
Cassembly) 的 讨论 (2434) 。 

RegexOptions.ECMAScript 

此 选项 表示 ， 正 则 表达 式 应 该 按照 ECMAScript (@ 412) 兼容 方式 来 解析 。 如 果 不 清楚 ECMAScript， 
或 者 不 前 要 莱 容 它 ， 可 以 直接 急 略 。 

RegexOptions.None 

它 表 示 “ 没 有 额外 的 选项 *， 在 初始 化 RegexOptions 变 量 时 ， 如 果 需 要 指定 选项 ， 可 以 使 用 它 。 也 可 以 
用 OR 来 连接 其 他 和 希望 使 用 的 选项 。 














使 用 Regex 对 象 
Using RegexObjects 
在 没有 实际 应 用 之 前 ，Regex 是 没有 意义 的 ， 下 面 的 程序 示范 了 实际 的 应 用 : 
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RegexObj .IsMatch (target) Return type: Boolean 
RegexObj.IsMatch(target, offset) 
IsMatch7y 72246, H pr EW Fer su A BY A eB, REA Boolean, KLZ AEA MI, X 
里 有 个 例子 : 


Dim R as RegexObj = New Regex ("^\s*$") 


If R.IsMatch (Line) Then 


' 如 采 行 为 空 ... 
Endif 
MAREE S offset (一 个 整数 ) ， 则 第 一 次 笑 试 会 从 对 应 的 偏 移 值 开始 。 
RegexObj .Match (target) Return type: Match object 


RegexObj .Match (target, offset) 
RegexObj .Match (target, offset, maxlength) 


Match 77 ZÆ 1E Wl ZerK SUVS BI A pe AE BA, Ree Match A. MA Match% ay VA A Hy VE 
配 结果 的 信息 (古人 否 匹 配 成 功 ， 捕 获 的 文本 等 等 ) ， 和 初始 化 此 正则 表达 式 的 “下 一 次 ” 罗 配 。Match 对 象 的 细 
T E427. 

如 果 提 供 了 offset 一 个 整数 ) ， 则 第 一 次 答 斌 会 从 对 应 的 偶 移 值 开 始 。 

如 果 提 供 了 maxlength 参 数 ， 会 进行 特殊 模式 的 匹配 ， 从 offset 开 始 的 字符 开始 计算 ， 正 则 引擎 会 把 
maxlength 长 度 的 文本 当 作 整个 目标 字符 串 ， 假 设 此 范围 之 外 的 字符 都 不 存在 ， 所 以 此 时 ^| 能 够 匹配 原来 
的 目标 字符 串 中 的 offset 位 置 ，“$ | 能 够 匹配 之 后 maxlength 个 字符 的 位 置 。 同 样 ， 环 视 结构 不 能 “感觉 到 ?此 
范围 之 外 的 字符 。 这 与 提供 offset 有 很 大 不 同 ， 如 果 只 提供 了 offset， 受 影响 的 只 是 传动 装置 开始 应 用 正则 
表达 陈 的 位 置 一 一 正则 引擎 仍然 能 够 “看 到 ”完整 的 目标 字符 串 。 

下 面 表格 中 的 例子 比较 了 offset 和 maxlength 的 意义 : 


调用 方法 以 下 列表 达 式 RegerObj 的 结果 


RegexObj .Match ("May 16,1998") 失败 


RegexObj .Match ("May 16,1998", 9) 失败 失败 


RegexObj .Match ("May 16,1998", 9, 2) 匹配 “99 匹配 99 匹配 “99- 


RegexObj .Matches (target) Return type: MatchCollection 
RegexObj .Matches (target, offset) 
Matches 方 法 类 似 Match 方 法 ， 只 是 Matches 方 法 返回 一 组 Match 对 象 ， 代 表 目 标 字 符 串 中 的 所 有 匹配 绪 
果 ， 而 不 是 第 一 次 的 匹配 结果 。 返 回 的 对 象 为 MatchCollection 。 
例如 ， 初 始 化 代码 如 下 : 


Dim R as New Regex ("\wt") 
Dim Target as String = "a few words" 





下 面 的 程序 : 
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Dim BunchOfMatches as MatchCollection = R.Matches (Target) 
Dim I as Integer 
For I = 0 to BunchOfMatches.Count - 1 
Dim MatchObj as Match = BunchOfMatches.Item(T) 
Console.WriteLine("Match: " & MatchOb7.Value) 
Next 


运行 结果 是 : 
Match: a 
Match: few 
Match: words 
下 面 的 程序 输出 同样 的 结果 ， 它 说 明 ，MatchCollection 对 象 可 以 一 次 分 配 整 个 Match-Collection 。 
Dim MatchObj as Match 
For Each MatchObj in R.Matches (Target) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 


FEAT, RIGS th By DOA SIT PEA OCR, (EY Match 而 不 是 Matches) 方法 : 
Dim MatchObj as Match = R.Match (Target) 
While MatchObj7.Success 


Console.WriteLine("Match: " & MatchObj7.Value) 
MatchObj = MatchObj.NextMatch () 
End While 
RegexObj.Replace (target, replacement) Return type: String 


RegexObj.Replace (target, replacement, count) 
RegexObj . Replace (target, replacement, count, offset) 
Replace 方 法 会 在 目标 字符 串 中 进行 查找 - 丛 换 ， 返 回 《〈《 有 可 能 已 经 变化 的 ) 字符 串 副 本 。 它 应 用 的 古 
Regex 对 象 的 正则 表达 式 ， 返 回 的 不 是 Match 对 象 ， 而 是 蔡 换 的 结果 。 匹 配 的 文本 被 什么 内 容 蔡 换 ， 取 雇 于 
replacement 参 数 。replacement 参 数 可 以 重 载 : 它 可 以 是 一 个 字符 串 ， 也 可 以 是 MatchEvaluator 委 托 
(delegate) 。 如 条 replacement 是 一 个 字符 串 ， 它 会 按照 下 一 页 补充 内 容 的 说 明 进 行 处 理 。 例 如 : 
Dim R CapWord as New Regex ("\b[A-2] \w*") 


Text = R CapWord.Replace(Text, "<B>$0</B>") 

把 每 一 个 大 写 单 词 两 边 加 上 <B>...</B>。 

如 末 设 置 了 count， 束 只 会 进行 count 次 和 蔡 换 《默认 情况 是 进行 所 有 的 葵 换 ) o WRR ERREARI 
配 ， 可 以 将 count 设 置 为 1。 如 末 我 们 知道 只 会 有 一 次 匹配 ， 把 count 明 确 设置 为 1 的 效率 会 更 局 ， 因 为 不 需 
要 对 字符 串 的 其 他 部 分 进行 得 找 和 处 理 。 把 count 设置 为 -1 表示 “所 有 匹配 都 必须 蔡 换 ”( 它 等 价 于 没有 设置 
count) 。 

MRE S ”offset (一 个 整数 ) ， 则 应 用 正则 表达 式 时 ， 目 标 字 符 串 中 对 应 数目 的 字符 会 被 忽略 。 这 
些 忽 略 的 字符 会 直接 被 复制 到 结 采 中 。 

例如 ， 这 段 代 码 会 去 挥 多 余 的 空白 字符 (也 就 古 将 连续 的 多 个 空白 字符 人 蔡 换 为 单个 空格 〉: 

Dim AnyWS as New Regex ("\s+") 


Target = AnyWS.Replace(Targe = ari l . 
1 i i i Linux[] [| www.linuxidc.com [] L 


some……TIandom……spacing' 被 奉 换 为 "some'random:spacing:'。 下 面 代码 的 结果 相同 ， 只 是 它 会 保留 行 
开头 任意 数目 的 空 日 字符 。 


Dim AnyWS as New Regex("\st") 
Dim LeadingWS as New Regex("*\s+") 


Target = AnyWS.Replace (Target, " ", -1, LeadingWS.Match(Target) .Length) 
它 会 把 “…:some…random……spacing’ 转 化 为 ‘…:some:random'spacing*， 在 查找 和 替换 时 ， 它 使 用 
LeadingWS 匹 配 文本 的 长 度 作为 侦 移 值 〈 束 是 要 跳 过 的 字符 数目 ) 。 这 里 用 到 了 Match 对 象 的 简便 特性 ， 即 
LeadingWS.Match (Target) 的 Length 属 性 《即便 失败 也 没 问 题 ， 此 时 Length 的 值 为 0， 也 丈 是 说 我 们 需要 对 

整个 目标 字符 串 应 用 AnyWS) 。 


特殊 的 Replacement 处 理 


Regex.Replace 方法 和 Match.Result 方法 都 可 以 接收 能 够 进行 特殊 处 理 的 
replacement 字符 事 。 下 面 的 字符 序列 会 被 匹配 的 文本 所 替换 : 


字符 序列 BRA 








2 & 整个 表达 式 匹 配 的 文本 (等 于 $0) 
my, BS x 对 应 编号 的 捕获 分 组 匹配 的 文本 
${name} 对 应 命名 捕获 分 组 匹配 的 文本 

$` 目标 字符 串 中 匹配 文本 之 前 的 文本 
y 目标 字符 串 中 匹配 文本 之 后 的 文本 
55 单个 “$5” 字 符 

> 整个 原始 目标 字符 串 的 副本 

$+ 见 说 明 


目前 ，$+ 几 乎 是 没有 用 的 。 它 源 自 Perl 中 的 S+ 变 量 ， 即 实际 参与 匹配 的 捕获 型 括号 中 
编号 最 大 的 那个 (第 202 页 有 一 个 例子 ) 。 而 .NET 的 replacement 字符 串 中 的 S+ 只 是 引 
用 正则 表达 式 中 最 靠 后 的 那个 捕获 型 括号 匹配 的 文本 。 因 为 捕获 型 括号 会 重新 编号 一 
一 在 使 用 命名 型 捕获 时 ， 会 自动 进行 这 种 操作 〈 空 409) ， 所 以 它 基 本 没有 用 。 

除了 上 面 的 情况 之 外 ， 任 何 情况 下 在 replacement F P PEA $ REDRA, 


使 用 replacement 委 托 

replacement 参数 不 只 能 用 简单 字符 串 ， 还 可 以 是 委托 〈delegate， 人 简单 说 残 是 图 数 指针 ) 。 代 理 函 数 在 
每 次 岂 配 之 后 调用 ， 生 成 作为 replacement 的 文本 。 因 为 这 个 函数 能 够 进行 我 们 需要 的 任何 处 理 ， 这 种 查找 
蔡 换 的 机 制 功 能 非常 强大 。 

委托 的 类 型 是 MatchEvaluator， 每 次 L 配 都 会 调用 。 它 所 引用 的 函数 必须 接受 Match 对 象 ， 进 行 你 所 
需要 的 任何 处 理 ， 人 返回 作为 replacement 的 文本 。 

做 个 比较 ， 下 和 面 两 段 程 序 输出 同样 的 结 
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Target = R.Replace(Target, "<<$&>>") ) 


Function MatchFunc(ByVal M as Match) as String 
return M.Result ("<<$&>>") 


End Function 
Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Target = R.Replace(Target, Evaluator) 


PA BRE ABFA <<... > 标注 匹配 的 文本 。 使 用 委托 的 好 处 在 于 ， 在 计算 replacement 时 我 们 可 以 进行 
任意 复杂 的 操作 。 下 面 的 例子 把 摄氏 温度 转换 为 华氏 温度 : 
Function MatchFunc(ByVal M as Match) as String 
' 从 $1 获得 温度 数值 ， 转 换 为 华氏 温度 
Dim Celsius as Double = Double.Parse(M.Groups (1) .Value) 
Dim Fahrenheit as Double = Celsius * 9/5 + 32 
Return Fahrenheit & "F" '#Ae"F", ABB 
End Function 


Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Dim R Temp as Regex = New Regex("(\d+)C\b", RegexOptions.IgnoreCase) 
Target = R Yemp.Replace(Targec, Evaluater) 


如 果 目 标 字 符 串 中 包含 ‘Temp is 37C.’, CEREA ‘Temp is 98.6F.’. 


RegexObj.Split (target) Return type: array of String 
RegexObj.Split (target, count) 
RegexObj.Split (target, count, offset) 


Split 方法 将 目标 正则 表达 坏 应 用 于 目标 字符 串 ， 返 回 由 各 匹配 分 隔 的 字符 串 数 组 。 如 下 面 这 个 例子 所 


i 


ZN: 
Dim R as New Regex("\.") 
Dim Farts as String() = R Splat" 209. 2d. LAGT) 


R.Split 返 回 包含 四 个 字符 串 的 数组 C209, ‘204’, 14622) ， 它 们 由 \.| 在 目标 字符 串 中 的 三 次 
匹配 来 分 隔 。 

如 有 果 提 供 了 count 参 数 ， 则 至 多 返回 count 个 字符 串 《〈 除 非 使 用 了 捕获 型 括号 ， 一 会 儿 会 说 到 这 个 问 
oa 如 果 没 有 所 供 count，Split 返 回 所 有 匹配 分 阳 的 字符 串 。 提 供 count 的 意思 是 ， 正 则 表达 式 可 能 在 找到 

终 风 配 之 前 仿 止 应 用 ， 厦 末 真 如 此 ， 数 组 中 最 后 的 元 系 就 古 日 标 字符 串 中 余下 的 部 分 。 


Dim R as New Regex("\.") 
Dim Parts as String() = R.Split¢("209.204.146.22",; 2) 


此 时 ，Parts 得 到 两 个 字符 串 ，"“2092 和 ?204.146.22”。 

如 果 设 置 了 了 ”offset 一 个 整数 ) ， 则 正则 表达 式 的 匹配 策 试 从 对 应 编号 的 字符 开始 。 前 面 的 offset 个 字 
从 会 作为 数组 的 第 一 个 元 系 返 回 〈( 如 果 人 设置 了 RegexOptions.RightToLeft， 就 会 作为 最 后 一 个 元 系 ) © 

在 Split 中 使 用 捕获 型 括号 

如 果 出 现 了 任何 形式 的 捕获 型 括 与 ， 数 组 中 通 弟 会 包含 额外 的 捕获 文本 ye A 


含 ) 。 来 看 个 简单 的 例子 ， 要 拆 分 字符 串 ‘2006-12-31’ 或 是 ‘04/12/2007’'， 你 可 能 会 使 用 1 
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Dim R as New Regex("[-/]") 
Dim Parts as String() = R.Split (MyDate) 


结果 包含 3 个 元 素 ( 均 为 字符 串 )。 不 过 ， 使 用 捕获 型 括号 的 正则 表达 式 '，〈[-/，])〉 | ， 则 会 返回 5 个 
字符 串 : 如 果 MyDate 包 含 2006-12-31’?"， 这 5 个 元 素 是 ‘2006?、‘”、‘12?、‘-*、‘31’”。 多 出 来 的 和 -是 每 次 捕获 
的 $1。 

如 果 有 多 组 捕获 型 插 与 ， 它 们 会 按照 编写 排序 (也 就 是 说 ， 所 有 的 命名 捕获 跟随 在 未 命名 捕获 之 后 只 
409) 。 

只 要 实际 参与 了 匹配 捕获 型 括号 的 捕获 型 括 亏 ， 都 会 包含 在 Split 的 结果 中 。 不 过 ， 目 前 的 .NET 有 一 
个 bug， 即 如 果 某 组 捕获 型 括号 没有 参与 目 配 ， 它 和 所 有 编号 更 靠 后 的 捕获 型 括号 都 不 会 包含 在 返回 的 结果 
中 


KAS ot ABP, WR iD ACG H ne a EE SVE i, mHE AE 
返回 结果 中 。 用 ”Qs+) ? ， (st) ? | 分 隔 ‘this+:，…that*?， 得 到 四 个 字符 串 “thiss、“*、“…“* 和 ‘that*。 但 
征 ， 如 末 目 标 字 人 符 串 为 "his，:that'， 因 为 第 一 组 捕获 型 括号 没有 参与 最 终 史 配 ， 所 有 的 捕获 型 括号 都 不 包 
含 在 最 终结 果 中 ， 所 以 只 会 返回 两 个 字符 串 'this: 和 *that' 。 无 法 预知 到 底 会 返回 多 少 字符 串 ， 是 当前 版 本 
的 .NET 的 一 个 重大 问题 。 

在 这 个 例子 中 ， 我 们 可 以 使 用 ' (sx*) ， Cs) | 绕 开 这 个 问题 〈 这 样 两 个 分 组 一 定 都 能 参与 匹 
配 ) 。 不 过 ， 更 复 洒 的 表达 式 束 没 这 么 容易 改写 了 了 。 

RegexObj .GetGrouPNames () 

RegexObj .GetGroupNumbers () 
RegexObj.GroupNameFromNumber ( number ) 
RegexObj.GroupNumberFromName( name ) 

XILDA AFH Bae vas CODA, OR ea eR, THAD A) 的 捕获 型 分 组 的 
ee Rye EMU ASIA TUF FETE HY PZ 4 AF SP AD OA A 





RegexObj .ToString () 
RegexObj .RightToLeft 
RegexObj . Options 
XILT ERFHP EW Regex WRAL AO RDA BUA ED) 的 信息 。ToString O 
方法 返回 正则 表达 式 构 造 函 数 接收 的 字符 串 。RightToLeft 属性 返回 一 个 Boolean 值 ， 表 明 它 是 否 启用 了 
RegexOptions.RightToLeft 选 项 。Options 属 性 返回 与 此 正则 表达 式 相 关 的 RegexOptions。 下 面 说 明了 各 个 选 
项 的 值 ， 把 对 应 选项 的 值 相 加 ， 残 得 到 返回 结果 。 


0 None 16 Singleline 

1 IgnoreCase 32 IgnorePatternWhitespace 
2 Multiline 64 RightToLeft 

4 ExplicitCapture 250 ECMAScript 

8 Compiled 


这 里 没有 128， 因 为 它 用 于 微软 内 部 的 调试 ， 没 有 出 现在 最 终 产 品 中 。 
补充 内 容 给 出 了 这 些 方法 的 应 用 实例 。 


使 用 Match 对 象 


Using MatchObjects 

有 三 种 方法 创建 Match 对 象 : Regex 的 Match 方 法 、 静 态 图 数 Regex.Match 〈 稍 后 介绍 ) 和 Match 对 象 目 
己 的 NextMatch 方 法 。 它 封装 菜 个 正则 表达 式 的 蛙 次 应 用 的 所 有 相关 信息 。 其 属性 和 方法 如 下 : 

MatchObj.Success 


返回 一 个 Boolean ff, #ARUAGEAwey. leas, inaraw MaKe Gen [det | 





433) 。 


MatchObj .Value 
MatchObj .ToString () 





它 返 回 实际 匹配 文本 的 副本 。 
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显示 Regex 对 象 的 信息 


这 段 代码 显示 了 Regex 对 象 R 的 信息 
' 显示 关于 Regex 变量 R 的 已 知 信息 


Console.WriteLine ("Regex is: " & R.ToString()) 
Console.WriteLine ("Options are: " & R.Options) 
If R.RightToLeft 

Console.WriteLine("Is Right-To-Left: True") 
Else 

Console.WriteLine ("Is Right-To-Left: False") 
End If 


Dim S as String 
For Each S in R.GetGroupNames () 
Console .WrateLine("Name """ & S & """ is Num #" & 
R.GroupNumberFromName (S) ) 
Next 
Console.WriteLine("---") 
Dim I as Integer 
For Each I in R.GetGroupNumbers () 
Console .WriteLine ("Num 4" & I & T is Name """ & _ 
R.GroupNameFromNumber(I) & """") 
Next 


再 执行 一 次 ， 用 下 面 的 方法 创建 Regex 对 象 : 
New Regex (™ (\wt) ://([*/]+) (/\S*)") 
New Regex ("* (?<proto>\wt) :// (?<host>[%*/]+) (?<page>/\S*)", 
RegexOptions.Compiled) 
得 到 下 面 的 结果 (为 过 应 排版 ， 有 个 正则 表达 式 洗 略 了 后 半 段 ) 


Regex is: *(\wt)://([*/]+) (/\S*) Regex is: *(?<proto>\wt) ://(?<host> .… 


Option are: 0 Option are: 8 

Is Right-To-Left: False Is Right-To-Left: False 
Name "0" is Num #0 Name "0" is Num #0 

Name "1" is Num #1 Name "proto" is Num #1 
Name "2" is Num #2 Name "host" is Num #2 
Name "3" is Num #3 Name "page" is Num #3 
Num #0 is Name "0" Num #0 is Name "0" 

Num #1 is Name "1" Num #1 is Name "proto" 
Num #2 is Name "2" Num #2 is Name "host" 
Num #3 is Name "3" Num #3 1s Name "page" 


MatchObj.Length 
返回 实际 匹配 文本 的 长 度 。 


MatchObj.Index 由 串口 局 bBinux |] www.linuxide.com [] L 





返回 一 个 整数 ， 显 示 匹 配 文 本 在 目标 中 的 起 始 位 置 。 编 亏 从 0 开始 ， 所 以 这 个 数字 表示 从 目标 字符 串 
AFA CRAL) 到 匹配 文本 的 开头 〈 节 左边 ) WKE. EEEE Match 对 象 时 设置 了 
RegexOptions.RightToLeft， 回 值 也 不 会 变化 。 

MatchObj.Groups 

此 属性 是 一 个 GroupCollection 对 象 ， 其 中 封 攻 了 多 个 Group 对 象 。 它 是 一 个 普通 的 集合 次 

(collection) ， 包 含 了 Count 和 Item 属性 ， 但 是 最 间 用 的 办 法 还 是 按照 索引 值 访问 ， 取 出 对 应 的 Group 对 
象 。 例 如 ，M.Groups (3) 对 应 第 3 组 捕获 型 插 号 ，M.Groups〈" HostName " ) 对 应 命名 捕 
获 *HostName” (正则 表达 式 中 的 (? <HostName>...) j? x 


在 C# 中， 使 用 M.Groups[3] 和 M.Groups[ " HostName " ]- 

编号 为 0 的 分 组 表示 整个 正则 表达 式 匹 配 的 所 有 文本 。MatchObj.Groups (0) .Value 等 价 于 
MatchObj. Value. 

MatchObj.NextMatch() 

NextMatch O MRK EMIRATE, ERR PULA, GIB Match 对 象 。 

MatchObj.Result(string) 

string 古 一 个 特殊 的 序列 ， 按 照 第 424 页 补充 内 容 的 介绍 来 处 理 ， 返 回 结果 文本 。 这 里 有 个 简单 例 于 : 





Dim M as Match = Regex.Match(SomeString, "\wt") 
Console.WriteLine (M.Result ("The first word is SR ) 


下 和 面 的 程序 可 以 依次 匹配 内 容 左 侧 和 右 侧 文本 的 副本 
M.Result ("S$") ' 这 是 匹配 内 容 左 侧 的 文本 
M.Result ("$") ' 这 是 匹配 内 容 右 侧 的 文本 
调试 时 可 能 需要 显示 条 些 和 行 有 关 的 信息 : 
M.Result ("[$*<$&>$"]") ) 
如 果 把 \d+ | 应 用 到 ‘May 16，1998' 得 到 的 Match 对 象 ， 返 回 的 是 "May <16>, 1998’, X Ae HAH 
了 匹配 文本 。 


MatchObj.Synchronized() 
它 返 回 一 个 新 的 ， 与 当前 Match 完 全 一 样 的 Match 对 象 ， 只 是 它 适 合 于 多 线程 使 用 。MatchObj.Captures 


Captures 属 性 并 不 党 用， 参见 第 437 页 的 介绍 。 
使 用 Group 对 象 





Using GroupObjects 
Group 对 象 包含 一 组 捕获 型 括号 〈 如 采编 号 是 0， 束 表 示 整 个 匹配 ) 的 信息 。 其 属性 和 方法 如 下 : 
GroupObj.Success 
ERE —ANBooea tE, KHENA SVL. FPA EAT A or RAAS MT A J DE 
配 。 如 果 (this) | (that) | 能 够 成 功 匹 配 ， 肯 定 有 一 个 分 组 能 参与 匹配 ， 另 一 个 不 能 。 第 139 页 的 脚注 中 
有 为 一 个 例子 。 
GroupObj .Value 
GroupObi.ToString () 
它们 都 返回 本 分 组 捕获 文本 的 副本 。 如 果 匹 配 不 成 功 ， 则 返回 空 字 符 串 。 
GroupObj.Length 
返回 本 分 组 捕获 文本 的 长 度 。 如 果 匹 配 不 成 功 ， 则 返回 0。 
GroupObj.Index 
7 iB NEL RIAD ALAR EI CAS EE A as BEB A ESI Do 编写 从 0 FR Pre itz H to 
TRAK RAL 到 捕获 文本 的 开头 CRAY Ke ROE Me RAVAN diftaxidc.com opo 











RegexOptions.RightToLeft， 结 果 仍 然 不 变 ) 。 
GroupObj.Captures 
请 参考 第 437 页 Group 对 象 的 Capture 属 性 。 
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前 仿 “ 便 捷 ” 函 数 


Static" Convenience" Functions 
在 第 413 页 的 “正则 表达 式 快速 入 门 ” 中 已 经 看 到 ， 我 们 并 不 需要 每 次 都 显 式 地 创建 Regex 对 象 。 我 们 可 
以 通过 下 面 的 郁 态 函数 直接 使 用 正则 表达 式 : 
Regex.IsMatch(target, pattern) 
Regex.IsMatch(target, pattern, options) 


Regex.Match(target, pattern) 
Regex.Match(target, pattern, options) 


Regex.Matches (target, pattern) 
Regex.Matches (target, pattern, options) 


Regex.Replace (target, pattern, replacement) 
Regex.Replace(target, pattern, replacement, options) 


Regex.Split(target, pattern) 
Regex.Split(target, pattern, options) 


FEA eR I CANARE Regex aA Amo. Eel Git ~~ Regex Xt 
R, AER ARRAN, AFAR PTR COSA, WaT) 这 里 有 个 例子 : 
If Regex.IsMatch(Line, "*\s*$") 


它 等 价 于 : 


Dim TemporaryRegex = New Regex("*\s*$") 
If TemporaryRegex.IsMatch (Line) 


Ba, MPU) Hits: 
If New Regex("*\s*S") .IsMatch (Line) 


eeeeee 


使 用 这 些 便捷 函数 的 好 处 在 于 ， 代 码 因此 更 清晰 易 懂 。 面 向 对 象 式 处 理 看 起 来 像 函数 式 处 理 Com 
95) ， 坏 处 在 于 每 次 调用 都 必须 重新 检查 pattern 字 符 串 。 

如 果 在 整个 程序 的 执行 过 程 中 ， 正 则 表达 式 只 用 到 1 次 ， 就 不 需要 考虑 便捷 函数 的 效率 问题 。 但 是 ， 
如 果 需 要 应 用 多 次 《例如 在 循环 中 ， 或 者 是 频繁 调用 的 函数 中 ) ， 每 次 准备 正则 表达 式 都 需要 代价 Cm 
241) 。 创 建 Regex 对 象 ， 然 后 重复 使 用 的 主要 原因 之 一 就 是 ， 使 用 便捷 函数 的 效率 太 低 。 不 过 ， 下 一 节 
将 告诉 我 们 ，.NET 提 供 了 一 种 很 好 的 解决 办 法 : 兼 具 面向 对 象 的 效率 和 函数 式 处 理 的 便捷 。 


正则 表达 式 绥 存 


Regex Caching 

为 简单 的 正则 表达 去 构建 并 管理 Regex 对 象 很 不 方便 ， 所 以 .NET 的 正则 包 担 供 了 各 种 静态 方法 。 但 这 
些 静 态 方法 存在 效率 缺陷， 即 每 次 调用 都 需要 创建 临时 的 Regex 对 象 ， 应 用 它 ， 然 后 痉 用 。 如 琳 在 循环 中 
项 要 多 次 应 用 同样 的 正则 表达 式 ， 就 需要 进行 许多 不 必要 的 工作 。 

为 了 避免 重复 的 工作 ，.NET Framework 能 够 绥 存 静态 方法 创建 的 临时 变量 。 第 6 章 已 经 大 致 介绍 过 绥 
Fe C244) ,简单 地 说 ， 绥 和 存 的 意思 束 是 如 琳 你 希望 在 静态 方法 中 使 用 “最 近 ” 使 用 过 的 正则 表达 式 ， 此 方 
法 区 会 重用 之 前 创建 的 正则 对 象 ， 而 不 是 重新 创建 一 个 新 对 象 。 

“最 近 * 的 默认 意义 是 缓存 15 FEWER PS AEH PRA In Oxi GER ED 





表达 式 会 取代 第 1 个 ， 所 以 进入 下 一 轮 循环 时 ， 第 一 个 正则 表达 却 已 经 不 在 缓存 中 ， 必 须 重 新 生成 。 
如 果 默 认 值 15 太 小 ， 可 以 这 样 调整 : 
Regex.CacheSize=123 
如 果 项 望 蔡 用 绥 存 ， 可 以 将 其 设置 为 0。 
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SC HF PKI BY 


Support Functions 

BRS ZHU PT Ve AY ERR, A ASC HL: 

Regex.Escape(string) 

Regex.Escape C...) 人 返回 此 字符 串 的 副本 ， 其 中 的 元 字符 会 进行 转 义 。 这 样 处 理 的 字符 串 束 能够 作为 
文字 字符 串 供 正则 表达 式 使 用 。 

例如 ， 如 果 用 户 的 输入 保存 在 字符 串 SearchTerm 中 ， 我 们 可 以 这 样 构建 正则 表达 式 : 


Dim UserRegex as Regex = New Regex("*" & Regex.Escape (SearchTerm) & "$", | 
RegexOptions.IgnoreCase) 


JOE ARTA ICSE EES oP RAO HOR NEM BA A Ss -° MAJER 
ArgumentExceptions# #) (@419) 。 

Regex.Unescape(string) 

XS RBA ARTE, ERUPT, UTP AS, ANA EE OSAP, ZS PI 
的 反 斜 线 。 如 果 输 入 的 是 ^: \-\) ?, BEAM: -) ”。 

字符 缩 略 表示 法 也 会 被 解码 。 接 收 的 字符 串 中 的 会 被 蔡 换 为 换行 符 ，^\u1234’ 会 被 蔡 换 为 对 应 的 
Unicode 字 人 符 。 第 407 页 列 出 的 所 有 字符 缩 略 表示 法 都 会 被 处 理 。 

我 想象 不 出 Regex.Unescape 有 多 么 重要 的 价值 ， 不 过 了 解 转 义 规定 的 用 户 也 许 能 把 它 当 作 生 成 VB 字 
符 串 的 通用 工具 。 

Match.Empty 

此 函数 返回 代表 匹配 失败 的 Match 对 象 。 它 的 用 处 可 能 在 于 ， 如 果 初 始 化 的 某 个 Match 对 象 将 来 不 一 定 
会 被 用 到 ， 但 又 必须 能 够 得 询 。 这 里 有 个 简单 的 例子 : 


Dim SubMatch as Match = Match.Empty ' 初 始 化 一 个 Match,， 但 下面 不 一 定 会 设 定 








Dim Line as String 
For Each Line in EmailHeaderLines 
' 如果 这 是 标题 ， 保 存 匹 配 的 信息 ... 
Dim ThisMatch as Match = Regex.Match(Line, "“Subject:\s*(.*)", 
RegexOptions.IgnoreCase) 


If ThisMatch.Success 
SubMatch = ThisMatch 
End If 


eeeeee 


If SubMatch.Success 
Console.WriteLine (SubMatch.Result ("The subject is: $1")) 
Else 
Console.WriteLine("No subject!") 
End If 
如 果 字 人 符 串 数组 EmailHeaderLines 没 有 任何 行 ( 或 者 没有 Subject 行 )， 程 序 中 的 循环 就 不 会 设置 
SubMatch， 如 果 ”SubMatch 没 有 人 初始化， 和 铂 环 之 后 检查 ”SubMatch 会 得 到 一 个 空 引用 异常 。 这 种 情况 下 用 
Match.Empty 来 初始 化 吏 很 方便 。 


Regex.CompileToAssembly(...) : 
EAE AA Bia “PR BF Cassembly) , debe seredeLinuxls 4l yww.linuxide.com O D 


NETAZ ii 


Advanced.NET 
下 面 的 内 容 涉 及 某 些 尚未 介绍 过 的 特性 : 通过 正则 装配 件 (regex assemblies) 构建 正则 表达 式 库 ， 使 
用 .NET 专 属 的 特性 岂 配 舱 套 结构 ， 以 及 对 Capture 对 象 的 讲解 。 


正则 表达 云 竣 配件 


Regex Assemblies 

NETRE {UE RegexXt RIVA SARA Cassembly) 中 ， 在 构建 正则 表达 陈 库 时 这 很 有 用 。 下 一 页 的 补充 
内 容 提 供 了 示例 。 

运行 补充 内 容 中 的 例子 ， 能 够 在 当前 工程 的 pin 代码 目录 下 创建 JfriedlsRegexLibrary.DLL 。 然 后 我 们 可 
以 通过 Visual Studio.NETH)Project>Add Reference 将 其 加 入 ， 在 其 他 工程 中 使 用 这 个 装配 件 。 

要 使 用 装配 件 中 的 类 ， 背 先 必 须 导入 : 

Imports jfriedl 

然后 束 可 以 像 其 他 任何 类 一 样 引 用 它们 ， 例 如 : 


Dim FieldRegex as CSV.GetField = New CSV.GetField ' 生 成 新 的 regex 对 象 


Dim FieldMatch as Match = FieldRegex.Match (Line) ' 应 用 到 学 符 串 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(1).Success 
Field = FieldMatch.Groups ("QuotedField") .Value 


Field = Regex.Replace(Field, """""", """") 1 Jet 4A—Ae 6495] 5 IRA BAG] = 
Else 

Field = FieldMatch.Groups ("UnquotedField") .Value 
End If 
Console.WriteLine("({" & Field & "]") 


' 现在 可 以 处 理 ' Field'... 


FieldMatch = FieldMatch.NextMatch 
End While 


在 这 个 例子 中 ， 我 仅仅 从 jfriedl namespace 导入 ， 但 也 可 以 很 简单 地 从 jfiedl.CSV namespace} A, JA 
后 这 样 创建 Regex 对 象 : 

Dim FieldRegex as GetField=New GetField' 生 成 新 的 regex 对 象 

这 是 两 种 风格 。 
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通过 疙 配件 构建 目 己 的 正则 表达 式 库 


这 个 例子 构建 了 一 个 小 规模 的 正则 表达 式 库 。 完 整 的 程序 构建 了 一 个 装配 件 (DLL), 
其 中 和 包含 三 个 已 经 生成 的 Regex 构造 函数 :jfriedl.Mail.Subject, jfriedl.Mail. 


From #7 jfriedl.CSV.GetField, 


前 两 者 很 简单 ， 一眼 就 能 明白 ,最 后 那个 复杂 的 构造 函数 展示 了 构建 库 的 约定 
(Promise) 。 请 注意 ,这 里 不 需要 设 定 RegexOptions.Compiled， 因 为 在 构造 装配 件 


时 已 经 隐 含 地 设 定 了 。 


关于 如 何 使 用 构建 好 的 装配 件 ， 请 参考 第 434 页 。 


Option Explicit On 
Option. Strict On 


Imports System.Text.RegularExpressions 


Imports System.Reflection 


Module BuildMyLibrary 
Sub Main () 


‘ 下 面 调 用 regexCompliationInfo 时 提供 了 pattern, regex 选项 、 类 内 部 的 名 称 、 类 名 ， 
' WR—* Boolean 值 表 明 类 是 否 Public。 举 例 来 说 ， 要 使 用 第 一 个 类 ， 

′ 程序 必须 使 用 装配 件 中 "friedl.Mail.Subject" 作 为 Regex 的 构造 函数 。 

Dim RCInfo() as RegexCompilationInfo = { 


New RegexCompilationinfo ( 
KS SuUp jects \e* C.F)", 


New RegexCompilationinfo ( 
"Prom: \s*(.*)", 


New RegexCompilationtInfo ( 
MAG De A y] 
sth es 


" (?# AFARI SFR... 


m mm (2+ Az Hs LF | ) 

" (?<QuotedField> (?> 
wom (74 gee ara) ) 

m (?# ; E ee ) 

" | 

" (24 


") M 


Regex0ptions.IgnorePatternWhitespace, 
"GetField", “jiriedl.csv", true) 


} 


' 现 在 进行 主要 的 处 理 ， 生 成 结果 ... 


new AssemblyName () 


Dim AN as AssemblyName = 


RegexOptions.IignoreCase, 
"Subject", "“jJfriedl.Mail", 


RegexOptions.IgqnoreCase, 
"From", “JirLedl:.Mail", 


[ee F | maf re TA ) $ ) Ti 


.。。 非 引号 / 非 过 号 文本 ..。)】 " 


” (?<UnquotedField> [*"",]*) i 


true), 


truej, 


AN.Name = "JfriedlsRegexLibrary" "DLL 文件 的 和 名字 
AN.Version = New Version("1.0.0.0") 
Regex.CompileToAssembly(RCInfo, AN) ‘构建 完成 


End Sub 
End Module 
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也 可 以 不 进行 任何 寻 入 ， 而 是 百 接 使 用 : 
Dim FieldRegex as jfriedl.CSV.GetField=New jfriedl.CSV.GetField 
A UI, (ere ERED SOAR Ah TRE, RUA ce RV HY Td o 


DU ic te ES ATA 


Matching Nested Constructs 


微软 提供 了 一 种 创新 的 功能 ， 专 门 用 于 匹配 对 称 的 结构 《长 期 以 来 ， 正 则 表达 式 对 此 无 能 为 力 ) o € 








理解 起 来 并 不 容易 一 一 本 市 遍 幅 个 长 ， 但 请 注意 ， 其 中 的 内 容 分 量 个 少 。 
最 简单 的 办 法 束 是 用 一 个 例子 来 说 明 : 

Dim R As Regex = New Regex( " \( " & 
e [ee oe Da 
n [^O ]+ "BL 
" | "ç 
n \( (?<DEPTH>) 
n | a 
n \) (?<-DEPTH>) "&_ 
"ys "Š 
"  (? (DEPTH) (?!)) Ee 
j \) ny 


RegexOptions.IgnorePatternWhitespace) 


MAA MME MIE, pin before (nope (ves (here) okay) after 
用 下 画 线 标注 的 部 分 。 第 一 个 开 括 号 不 会 匹配 ， 因 为 它 没有 对 应 的 财 括号 。 

这 里 简要 说 明了 程序 的 工作 原理 : 

1. 每 匹配 一 个 〈 超 过 正则 表达 式 开头 \ (| 的 ) EC, | C <DEPTH>) | 会 把 正则 表达 式 保存 的 当 

前 括号 般 套 深度 信 加 1。 

2. 每 匹配 一 个 ‘) :， (2? <-DEPTH>) | 会 把 深度 减 1。 

3.' (? (DEPTH) (? ! ) ) | 确保 最 后 的 、\) | 匹配 时 ， 深 度 应 该 为 0。 

因为 引擎 的 回溯 堆栈 保存 了 当前 匹配 成 功 分 组 的 信息 ， 这 个 办 法 没有 问题 。' (? <DEPTH>) | 只 
是 使 用 了 命名 捕获 的 O ，， 它 总 是 能 成 功 匹 配 。 因 为 它 紧 跟 在 人 (| 之 后 ， 它 的 成 功 匹 配 (此 信息 会 保 
存在 堆栈 中 ， 直 到 出 栈 为 止 ) 用 于 标记 开 括 号 的 数目 。 

因此 ， 当 前 已经 成 功 匹 配 的 'DEPTH 分 组 总 数 吏 你 存在 回调 堆栈 中 。 我 们 硕 望 在 找到 闭 括 气 之 后 减 去 
它们 。.NET 独 有 的 (C? <-DEPTH>) | 结构 ， 会 从 堆栈 中 去 掉 最 近 的 “successful DEPTH” 标 记 。 如 果 不 
存在 这 样 的 标记 ，' C <-DEPTH>) | 就 会 报告 失败 ， 整 个 正则 表达 式 的 匹配 宣告 失败 。 

最 后 的 ，〈(? (DEPTH) C? ! ) ) | 是 一 个 普通 的 条 件 判 断 ， 如 果 'DEPTH' 分 组 匹配 成 功 它 会 应 用 
|? 1) | 。 如 果 在 程序 运行 到 此 处 时 选择 应 用 此 分 支 ， 就 表示 还 存在 未 匹配 的 开 插 号 。 果 真如 此 的 
话 ， 我 们 就 需要 退出 匹配 〈 我 们 不 希望 匹配 不 对 称 的 序列 ) 所 以 我 们 用 否定 型 顺序 环视 O ! ) | 来 做 检 
但 ， 确 你 匹配 失败 。 

看 到 了 吗 ? 这 就 是 .NET 正 则 表达 式 苞 配角 套 结 构 的 原理 。 


Capturex} & 


中 














Capture Objects 
.NET 的 对 象 模型 中 还 包括 Capture 对 象 ， 之 前 一 直 疫 有 介绍 
了 新 的 观察 角度 ， 也 可 能 是 增加 把 结束 卉 得 更 精 。 nooo 





过 。 依 视角 的 不 同 ， 它 可 能 为 匹配 结果 增加 
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Capture 对 象 儿 乎 等 价 于 Group 对 象 ， 因 为 它 表 示 一 组 捕获 型 括号 匹配 的 文本 。 与 Group 对 和 象 一 样 ， 它 
提供 了 Value (ILARIE) ~ Length 《匹配 文本 的 长 度 ) ， 以 及 Index 《匹配 文本 在 目标 字符 串 中 的 偏 移 
值 ， 编 号 从 0 开始 ) 。 

Group 对 象 和 Capture 对 象 的 主要 差别 是 ， 每 个 Group 对 象 都 包含 了 一 组 Captures， 分 别 对 应 到 匹配 过 程 
中 各 分 组 的 未 确定 匹配 (intermediary match) ， 以 及 该 分 组 最 终 匹 配 的 文本 。 

看 下 面 这 个 例子 : 

Dim M as Match=Regex.Match( " abcdefghijk ”,，”A(..)+”) 


‘abcdefghijk’ 





正则 表达 式 匹 配 了 5 组 CO | ， 包括 了 字符 串 中 的 绝 大 多 数字 符 ': 因为 加 号 在 
插 写 外 面 ， 加 号 控制 的 每 次 达 代 都 会 午 新 捕获 ， 这 个 捕获 型 括号 最 后 保存 的 是 匀 CE Di, 
M.Groups (1) .Value 等 于 诸 ) 。 相 反 ，M.Groups (1) 同样 包含 一 组 Capture， 它 们 对 应 到 1 C.) | 的 匹配 
过 程 : 


M.Groups(1).Captures(0).Value is ‘ab’ 
M.Groups(1).Captures(1).Value is ‘cd’ 
M.Groups(1).Captures(2).Value is ‘ef’ 
M.Groups(1).Captures(3).Value is ‘gh’ 
M.Groups(1).Captures(4).Value is ‘ij’ 
M.Groups (1) .Captures.Count is 5. 


PE ERS Bl, Ba VORA ‘ij’ A] Fe 28 4 Jey VEC M.Groups (1) .Value。 看 起 来 ，Group 的 
Value ze AS oy 24 sie ZS VE A SC AS HY fa] WY. M.Groups (1) .Value 是 : 

M.Groups (1).Captures(M.Groups(1).Captures.Count-1). Value 

关于 Capture， 还 要 讲 几 点 : 

eM.Groups (1) .Capture 是 一 个 CaptureCollection， 与 普通 的 集合 类 (collection) 一 样 ， 它 包含 了 
Items 和 Count 属 性 。 不 过 ， 通 单 大 家 都 不 会 使 用 这 两 个 属性 ， 而 是 通过 索引 值 直 接 访 问 ， 例 如 
M.Groups (1) .Captures (3) (在 C# 中 是 M.Groups[1].Captures[3]) 。 

eCapture 对 象 没 有 Success 方 法 ， 如 果 需 要 ， 请 训 试 Group 的 Success。 

e 到 现在 ， 我 们 已 经 看 到 ，Capture 对 象 在 Group 对 象 内 部 可 用 。Match 对 象 也 有 Captures Jatt, RE 
清 出 并 不 大 。M.Captures ”可 以 直接 访问 编写 为 0 的 分 组 的 Captures 属 性 (也 就 是 说 ”M.Captures 等 价 于 
M.Groups (0) .Captures) 。 因 为 编写 为 0 的 分 组 表示 整个 罗 配 ， 所 以 不 会 有 “ 志 历 ” 罗 配 的 迭代 ， 所 以 编号 
为 0 的 捕获 集合 类 只 有 一 个 Capture。 因 为 它们 包含 与 编号 为 0 的 匹配 同样 的 信息 ，M.Capters 和 
M.Groups (0) .Captures 并 不 是 很 有 用 。 

.NET 的 Capture 对 象 是 一 种 创新 ， 但 是 因为 与 对 象 模型 “集成 过 度 (overly integrated) ”， 使 用 起 来 反而 
更 复 杀 ， 而 且 令 人 迷惑 。 在 仔细 参阅 .NET 的 文档 ， 并 真正 理解 了 这 些 对 象 之 后 ， 我 感觉 这 种 做 法 有 利 也 
有 沟 。 一 方面 ， 我 乐于 看 到 这 种 创新 。 虽 然 它 的 用 法 并 不 会 马上 显现 出 来 ， 但 这 或 许 是 因为 一 百 以 来 我 都 
习惯 于 用 传统 的 正则 表达 式 特性 来 思考 问题 。 

另 一 方面 ， 在 匹配 过 程 中 的 额外 的 分 组 ， 匹 配 完 成 之 后 把 它们 封 疼 到 一 个 对 象 中 ， 人 似乎 降低 了 效率 ， 
我 并 不 和 希望 降低 效率 ， 除 非 要 得 到 额外 的 信息 。 增 加 的 Capture 分 组 在 大 多 数 匹 配 中 不 会 用 到 ， 但 是 照 目前 
的 情况 来 看 ， 生 成 Match 对 象 时 会 构建 所 有 的 Group 和 Capture 对 象 〈 以 及 它们 相关 的 GroupCollection 和 
CaptureCollection 对 销 )。 所 以 无 论 是 否 需 要 ， 它 们 都 在 那里 ， 如 果 你 能 够 发 现 Capture 对 象 的 使 用 价值 ， 束 
不 要 放 过 。 
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201E 20 905F RAS HH Web HY) 104th Ac HEE PHP PEKEPEDLIT,» JF -BIFAAS. PHP LAIT HEE 
之 一 是 ， 即 使 非 专 业 人 员 ， 只 需要 稍 作 准 备 ， 吏 能 使 用 PHP 的 基本 功能 。 除 此 之 外 ，PHP Eie S STP 
a PHP ”当然 能 够 文 持 正 则 表达 式 ， 而 且 提 供 了 全 少 3 僚 独立 的 ， 不 相关 
j 正 则 引擎 。 

PHP 的 三 种 正则 引擎 是 "preg” “ereg” 和 “mb_ereg”。 本 书 介绍 的 是 preg 引擎 提供 的 函数 。 它 使 用 NFA 
引擎 ， 通 党 情况 下 ， 在 速度 和 功能 方面 部 要 强 于 其 余 两 者 (“preg” 读 作 “p-reg”) 。 

与 之 前 各 章 的 联系 ”在 开始 本 章 之 前 ， 读 者 必须 知道 ， 本 章 的 内 容 强 烈 依赖 于 第 1 全 6 革 介 绍 的 基础 知 
识 。 如 果 读 者 只 对 PHP 感 兴趣 ， 可 能 会 直接 从 本 章 开始 阅读 ， 但 我 还 是 希望 他 们 认真 地 看 一 看 前 言 〈( 尤 其 
FEAT AGI FATA SE: 第 1、2、3 章 介 绍 了 与 正则 表达 式 相 关 的 基本 概念 、 特 性 和 技术 ， 第 4、5、 
6 半 介 绍 了 一 些 理解 正则 表达 式 的 关键 知识 ， 它 们 可 以 直接 应 用 到 PHP 的 正则 表达 式 中 。 前 几 章 讲解 的 重 
要 和 概念 包括 NFA 引 擎 进行 匹配 基本 原理 ， 匹 配 优先 特性 、 回 斋 和 效率 。 

接 下 来 我 要 强调 ， 除 了 用 于 速 得 列表 一 一 例如 本 章 的 第 407 页 ， 和 第 3 章 从 第 114 页 到 第 123 页 ， 我 并 不 
布 望 这 本 书 成 为 一 本 参考 手册 ， 而 希望 它 成 为 精通 正则 表达 却 的 详细 教科 书 。 

本 半 开 始 简 要 介绍 了 preg 引 敬 的 历史 ， 然 后 介绍 它 的 正则 流派 。 接 下 来 的 几 记 详细 考察 了 preg 水 数 的 
接口 ， 然 后 是 天 于 preg 的 效率 问题 ， 最 后 是 扩展 示例 。 

preg 的 背景 和 历史 preg 这 个 名 字 来 自 接口 函数 名 的 前 级 ， 代 表 “Perl 的 正则 表达 式 (Perl Regular 
Expressions) ”。Ppreg 引 擎 的 创始 人 是 Andrei ” Zmievski， 他 对 当时 作为 标准 的 ereg 人 套件 的 诸多 测 肘 相当 不 满 
意 。 (ereg 表 示 “ 扩 展 的 正则 表达 式 (extended regular expressions) ”， 它 能 兼容 POSIX 标 准 ,，“ 扩 展 ” 的 意思 
是 不 仅仅 限于 一 个 最 简单 的 正则 产 派 ， 但 是 以 今天 的 标准 来 看 ， 还 相当 人 简陋 ) 。 

Andrei 的 preg 三 件 是 一 组 PCRE 〈 即 “Perl 兼容 的 正则 表达 式 ”Perl Compatible Regular Expressions) 接 
口 ， 这 和 是 一 误 非 党 标的 基于 NEFA 的 正则 表达 式 库 ， 完 整地 模拟 了 Per 的 语法 和 语意 ， 提 供 了 Andrei 想 要 的 能 
力 

















在 接触 PCRE 以 前 ，Andrei 先 阅读 了 Per 的 源 代 码 ， 以 诀 定 是 否 能 够 借用 到 PHP 当 中 。 他 显然 不 是 第 一 
个 阅读 Perl 的 正则 表达 陈 源 代码 的 人 ， 也 不 是 第 一 个 认识 到 代码 有 多 么 复杂 的 人 。Perl 的 正则 表达 式 功 能 
强 ， 速 度 快 ， 源 代码 也 在 许多 年 间 经 过 了 许多 人 的 修改 ， 已 经 超出 了 单个 开发 人 员 的 理解 能 

幸运 的 是 ， 剑 桥 大 学 的 Philip ”Hazel 同 样 已 经 被 Perl 的 正则 表达 式 的 源 代码 搞 得 头 昏 脑 胀 ， 所 以 他 写 了 
PCRE 库 (参见 第 91 页 ) 。 好 在 Philip 已 经 有 了 现成 的 可 供 模拟 的 语意 ， 所 以 寿 干 年 后 ，Andrei 找到 了 这 套 
编写 清晰 、 文 档 完 备 、 效 率 出 众 的 库 ， 很 方便 就 能 将 其 绑 定 到 PHP 中 。 

Perl 随 着 时 间 的 流 挝 而 不 汤 发 展 ，PCRE 也 是 这 样 ，PHP 亦 然 。 本 书 针 对 的 是 PHP Versions 4.4.3 和 
5.1.4， 这 两 者 都 兼容 PCRE Version6.6 ( 注 1) 。 

如 果 你 不 熟悉 PHP 的 版 本 信息 ， 清 注意 4.x 和 5.x 是 同时 维护 的 ， 而 5.x 进 行 了 大 规模 的 扩展 。 因 为 两 个 
系列 是 分 开 维 护 和 发 布 的 ， 很 可 能 某 个 5.x 的 版 本 所 用 的 PCRE 的 版 本 要 低 于 更 晚 发 布 的 4.x 版 本 。 
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PHP's Regex Flavor 
表 10-1: PHP preg 的 正则 流派 
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字符 缩 略 表示 法 " 



































#115 (c) \a [\b] \e \f \n \r \t \octal\xhex \x{hex} \echar 
字符 组 及 相关 结构 
可 118(c) 字符 组 : […] [^…] (TESES T125) 
#119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
= 120 (u) Unicode 混合 序列 : \X 
=120 (c) 字符 组 缩 略 表示 法 98， \w \d \s \W \D \S( 只 针对 8 位 字符 9 
#121 (c) (u) Unicode 属性 和 区 块 : \p{Prop} \P{Prop} 
F120 单个 字 节 (可 能 有 危险 )“: \e 
锚 点 及 其 他 零 长 度 断 言 
#129 行 / 字 竺 串 起 始 位 置 ; ^ \A 
#129 行 /字符 事 结 束 位 置 ": $ \z WZ 
#130 当前 匹配 的 起 始 位 置 : \G 
7133 单词 分 界 符 ，\b \B( 只 针对 8 位 字符 ) 
2133 环视 结构 : (Parr) (Phe) (Peer) (2<) 
注释 及 模式 修饰 符 
= 446 AAP: (?mods-mods) 容许 出 现 的 模式 : xo smix vu 
46 模式 修饰 范围 : (3mods-mods:…:) 
”136 注释 : (?#…) (只 在 模式 修饰 罕 X THR, 从 # 到 换行 符 或 表达 式 末尾) 
分 组 及 捕获 
446 WREEF: (…) ML \2… 
F446 命名 捕获 : (2?P<name>--) (?P=name) 
137 仅 分 组 的 括号 : (P20) 
F139 固化 分 组 : (7>) 
139 多 选 结构 : | 
475 递归 : (?R) (?num) (?P>name) 
140 条 件 判 断 : (2if then |else) “i 部 分 可 以 是 环视 ，(num) 或 (name) 
= 14] 匹配 优先 量词 : * +? {n} {n,} {x,y} 
#14] 起 略 优先 量词 : *? +? ?? {n}? {n,}? {x,y}? 
e142 占有 优先 量词 : *+ ++ ?+ {n}+ {n,}+ {x,y} + 
3136 (c) 文字 ( 非 元 字符 ) 范围 : NAQ…A\E 
(Cc) 一 一 可 用 于 字 御 组 内 部 Mates 中 见 说 明 


(u) 一 一 只 能 与 模式 修饰 符 则 连用 
(KARHE RT PHP preg 函数 所 使 用 的 正则 表达 式 库 PCRE) 
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前 页 的 表 10-1 简 要 介绍 了 preg 引 擎 的 正则 流派 。 下 面 是 补 苑 说 明 : 

O 只 有 在 字符 组 内 部 ，\b 才 表示 退 格 竺 。 在 其 他 场合 ，\b 匹 配 单 词 分 界 符 〈 号 133) 。 

十 进 制 转 义 只 能 使 用 两 到 三 位 八 位 数值 。 特 殊 的 一 位 数 \0| 序列 匹配 空 字 节 CNUL byte) 。 

[xzhex | 容许 出 现 一 到 两 位 十 六 进 制 数 字 ， 而 “xfhex} | 容许 任意 多 个 数字 。 请 注意 ， 大 于 \x{FF} 的 数 
值 只 能 与 模式 修饰 符 u 连 用 (二 447) 。 如 果 没 有 模式 修饰 符 u， 大 于 \x{FF} 的 信 会 导致 正则 表达 陈 非 法 。 

@ ”即使 是 在 UTF-8 模 式 下 《〈 通 过 模式 修饰 符 u) ， 单 词 分 界 符 和 字符 组 简 记 法 ， 例 如 \w| ， 也 只 对 
ASCII 字 符 起 作用 。 如 果 需 要 处 理 所 有 的 Unicode 字 符 ， 请 使 用 \pL| Ce 121) 代替 wj H pN RE 
hdj, 用 \pZ| AR hsjo 

(3) Unicode 文 持 针 对 Unicode Version 4.1.0. 

Unicode 字 母 表 (02122) 的 支持 不 需要 任何 ‘Is’ 或 者 ‘nm? 前 级 ， 例 如 \p{Cyrillic} 

PHP 同时 支持 单字 母 或 双 字母 Unicode 属性 ， 例 如 \p{Lu}, 、 ptL} ， 其 中 \pL | 作为 单字 母 属性 
名 (〈 嗓 121) 。 而 不 支持 '\p{Letter} 之 类 的 长 名 称 。 

PHP 也 支持 特殊 的 \p{fL&}| 5121) , WR '\p{Any}, (表示 任意 字符 )。 

D 在 默认 情况 下 ，Ppreg 套件 的 正则 表达 式 是 以 字 节 为 单位 的 ， 所 以 \C | 默认 就 等 价 于 「 O 
s: .) | |， 由 ”s 修 饰 的 点 号。 不 过 ， 如 末 使 用 了 修饰 件 u， 则 preg 套件 融会 以 UTF-8 字 母 为 单位 ， 也 了 惑 是 
说 ， 一 个 字符 可 能 由 6 个 字 节 组 成 。 即 使 这 样 ， \C| 仍然 匹配 单个 字 节 。 请 参考 第 120 页 的 注意 事项 。 

© '\z, 和 Z| 都 能 够 匹配 字符 串 的 末尾 ， 而 \zZ| 同样 能 够 匹配 最 后 的 换行 符 。 

$) 的 意义 取决 于 模式 修饰 符 m 和 D (e446) : 如 果 没 有 设 定 任何 修饰 符 ，1$| 等 价 于 NZ EF 
人 符 串 结尾 的 换行 符 ， 或 者 是 字符 串 结 尾 ) ; 如 果 使 用 了 m， 则 它 能 够 匹配 内 骸 的 换行 全， 如 果 使 用 了 模式 
修饰 符 D， 它 能 够 匹配 y (只 有 在 字符 串 的 结尾 ) 。 如 果 同 时 设置 了 m 和 D， 则 忽略 D。 
©) 逆序 坏 视 中 使 用 的 子 表 达 式 只 能 匹配 固定 长 度 的 文本 ， 除 非 顶 层 多 选 分 文 容许 不 同 的 固定 长 度 (全 











133) 
D 模式 修饰 符 x (自由 格式 和 注释 ) 只 能 识别 ASCII 的 空白 字符 ， 不 能 识别 Unicode 中 的 空白 字符 。 
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The Preg Function Interface 
PHP 正 则 引擎 的 处 理 方式 完全 是 程序 式 的 (95) ， 包 括 表 10-2 顶 端的 6 个 函数 ， 表 格 还 列举 了 4 个 有 
用 的 函数 ， 将 在 本 章 后 面 所 a 到。 


表 10-2: PHP Preg PA žE 


T 用 途 
F449 preg match | 测试 正则 表达 式 能 否 在 字符 囊 中 找到 匹配 ,并 提取 数据 
F453 preg match all 从 字符 串 中 提取 数据 
#458 preg replace 在 字符 事 的 副本 中 替换 匹配 的 文本 
#463 preg replace callback | 对 字符 串 中 的 每 处 匹配 文本 调用 处 理 函 数 
#465 preg split FFA PTA T FP 
#469 preg grep 选 出 数组 中 能 /不 能 由 表达 式 匹 配 的 元 素 
#470 preg quote 转 义 字符 串 中 的 正则 表达 式 元 字符 
下 面 四 个 函数 在 本 章 中 开发 完成 ， 列 在 此 处 方便 查询 
SASA reg match 类 似 preg match, 但 能 识别 出 为 参与 匹配 的 括号 
#472 preg regex to pattern | REN RAF} P EA preg pattern Fip ¥ 
F414 preg pattern error 检查 preg pattern FAF BEAR 
#475 preg regex error 检查 正则 表达 式 字 符 串 的 语法 错误 





每 个 函数 的 具体 功能 都 取决 于 参数 的 个 数 、 标 志 位 Cflag) ， 以 及 正则 表达 式 所 使 用 的 模式 修饰 符 。 
在 深入 细节 之 前 我 们 先 通 过 几 个 例子 来 看 看 PHP 中 的 正则 表达 式 的 例子 和 处 理 方式 。 
/* 测试 HTML tag 有 是否 <table> tag */ 
if (preg match('/*<table\b/i', Stag) ) 
print "tag is a table tag\n"; 


/* 测试 文本 是 否 为 整数 */ 
if (preg match('/*-?\d+$/', Suser input) ) 
print "user input is an integer\n"; 
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/* 从 字符 串 中 取出 HTML title */ 
if (preg match(' {<title>(.*?)</title>}si', $html, $matches)) 
print "page title: Smatches[1]\n"; 


/* 将 字符 串 中 的 数值 作为 华氏 温度 ， 将 其 替换 为 摄氏 温度 */ 

smetric = preg replace('/(-?\d+(?:\.\d+)?)/e', /* pattern */ 
"floor (($1-32)*5/9 + 0.5)', /* 替换 代码 */ 
SSteing) j 

/* 从 过 号 分 割 值 数 据 创 建 字 符 串 数组 */ 


Svalues array = preg split('!\s*,\s*,!', $comma separated values); 
最 后 的 程序 ， 如 果 输 入 ‘Larry，:Curly，: Moe:， 返 回 三 个 元 素 的 数组 : ‘Larry’, ‘Curly’ HM Moe’. 
“pattern” Z 2 


"Pattern" Arguments 
ATA preg rk AUN —TB Bab epattern, IEW AIA ATE MoT A, AY REE R NA 
符 。 在 上 面 的 第 一 个 例子 中 ，pattern 参 数 是 /<table\b 小 ， 也 就 是 包含 在 一 对 斜 线 〈 分 隔 符 ) 里 头 的 “到 
table\b) ， 然 后 是 模式 修饰 从 i 不 区 分 大 小 写 的 匹配 〉。 
PHP 单 引号 字符 串 
因为 正则 表达 式 很 有 可 能 包含 反 斜 线 ，， 所 以 在 以 字符 串 文字 方式 提供 pattern 参 数 时 ， 最 好 使 用 PHP 
的 单 引号 字符 串 。 第 3 章 介 绍 了 PHP 的 字符 串 文字 (103) ， 简 单 地 说 ， 如 果 使 用 单 引 号 字符 串 文 本 ， 正 
ee PHP WES Sire RAMS crea, VAV, OP AIRES] Sy 
Ast EX 0 
有 一 种 转 义 需要 特别 注意 ， 就 是 在 正则 表达 式 中 使 用 NI| 匹配 一 个 反 斜 线 字 符 。 在 单 引 号 字符 串 中 ， 
每 个 | 都 应 表示 为 \， 所 以 IN| 就 成 了 \N\。 四 个 反 斜 线 才能 匹配 一 个 反 斜 线 字符 ， 这 真神 奇 
《473 页 有 友和 斜 线索 复 到 极 站 的 例 于 。 ) 
举 个 具体 的 例子 ， 用 正则 表达 式 匹配 Windows 系 统 中 的 分 区 名 ， 例 如 ‘C: v。 可 以 用 正则 表达 式 MA- 
Z]: \$| ， 表 示 为 单 引号 字符 串 文字 就 是 [A-2]: WS. 
第 5 章 第 190 页 有 一 个 例子 ，“ ^.xN| 作为 pattern 字 符 串 时 应 该 写成 “人 .*\V'， 使 用 3 个 反 和 斜 线 。 照 此 类 
推 ， 我 找到 这 几 个 例子 : 
mle Tsa G mi Ar 
print Taari t WR Fery 
arint TAFA T 输出 /^ 人 .xxNN/ 
print TM/ 


头 两 个 例子 尽管 方式 不 同 ， 结 果 却 是 一 样 的 。 在 第 一 个 例子 中 ， 结 尾 的 "V" 对 于 单 引号 字符 串 文 字 并 不 
是 特殊 文本 ， 所 以 它 就 等 于 字符 串 的 值 。 第 二 个 例子 中 ， 对 于 字符 串 文字 来 说 有 特殊 含义 ， 所 以 输出 的 
字符 串 中 出 现 单个 小 。 它 与 后 面 的 字符 〈 斜 线 ) 放 在 一 起 ， 得 到 与 第 一 个 例子 同样 的 。 同 样 的 道理 ， 第 
三 个 和 第 四 个 例子 也 会 得 到 同样 的 结果 。 

当然 ， 你 也 可 以 使 用 PHP 的 双 引 号 字符 串 文本 ， 但 是 它们 要 麻烦 许多 。 它 们 支持 许多 字符 串 元 序列 ， 
这 些 在 正则 表达 式 字符 串 中 都 必须 特殊 处 理 。 

分 隔 符 

preg 引 擎 要 求 正则 表达 式 两 端 必须 有 分 隔 符 ， 因 为 设计 者 希望 它 看 起 来 更 像 Perl， 尤 其 在 模式 修饰 符 的 
GRR a SE Aes. ARE BU Ce ei hy EL EO Le 
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第 见 的 做 法 是 使 用 笠 线 作为 分 隔 符 ， 不 过 我 们 还 可 以 用 除了 字母 、 数 字 、 反 冬 线 和 空 日 字符 之 外 的 任 
何 ASCII 字 符 做 分 隔 符 。 最 间 见 的 是 一 对 斜 线 ， 但 两 个 '! ?和 '# HR E I o 

如 末 第 一 个 分 隔 符 表示 “ 开 Copening) ”: 

{(< | 

对 应 的 “ 闭 ” 分 隅 从 束 古 : 

H>] 

WR ELIE EXI AIT AAT OTB PA) HeRRE, MEA C (d+) ) :也 可 以 用 作 pattern 字 符 串 。 其 
中 ， 外 面 的 括号 是 模式 字符 串 分 隔 符 ， 内 部 的 括 亏 属于 分 隅 符 之 内 的 正则 表达 式 。 为 了 清晰 起 见 ， 我 会 避 
狗 这 种 情况 ， 使 用 简单 易 情 的 7 (d+) 7。 

pattern 字 符 串 内 部 可 以 出 现 转 义 的 分 隔 符 ， 所 以 /<<B> Cx? ) <VB> 丘 并 没有 错 ， 不 过 换 一 组 分 隔 
从 可 能 看 得 更 清楚 ， 例 如 ‘! <B> Cx? ) </B>! PEH... 作为 分 陋 符 ， 而 人 <B> Cx? ) </B 
SA Aas ys 

模式 修饰 从 

在 结束 分 隅 符 之 后 可 以 跟随 多 种 模式 修饰 符 ( 用 PHP 的 术语 来 说 ， 叫 做 pattern modifier) ， 在 某 些 情况 
下 ， 修 饰 行 也 可 以 出 现在 正则 表达 式 内 部 ， 修 饰 模式 的 某 些 性 质 。 我 们 已 经 在 一 些 例子 中 看 到 过 表示 不 区 
分 大 小 写 的 模式 修饰 符 i。 下 面 简要 介绍 模式 修饰 符 : 


修饰 符 | 表达 式 中 的 与 法 | 说 AA 
| 7110 ZKD 





m 11D 增强 的 行销 点 模式 
s F111 点 号 通 配 模式 
X 111 宽松 排列 和 注释 模式 
u #447 以 UTF-8 读 取 正 则 表达 式 和 目标 字符 囊 
x ©447 启用 PCRE“ 人 额外 功能 (extra stuff)” 
€ #459 将 replacement 作为 PHP 代码 (只 用 于 preg replace) 
S F478 启用 PCRE 的 “study” 优 化 尝试 





下 面 三 个 很 少 用 到 
U (3?U) ] 447 交换 xj 和 ?1 的 匹配 优先 含义 
T447 将 整个 匹配 党 试 锚 定 在 起 始 位 置 (译注 1) 


四 的 7447'S) 只 能 匹配 EOS, 而 不 是 EOS 之 前 的 换行 符 


(如 果 使 用 了 模式 修饰 符 m 则 不 会 这 样 ) 


表达 式 内 部 的 模式 修饰 符 在 正则 表达 式 内 部 ， 模 式 修饰 从 可 以 单独 出 现 ， 来 局 用 或 停 用 菏 些 特性 〈 例 
如 用 '(? i) | 来 启用 不 区 分 大 小 写 的 匹配 ， 用 「(? -D ， 来 停 用 二 135) 。 此 时 ， 它 们 的 作用 范围 持续 到 
对 应 的 结束 括号 ， 如 末 不 存在 ， 驶 持续 到 正则 表达 式 的 末尾 。 

他 们 也 可 以 用 作 模 式 修 饰 范围 (135) ， 例 如 1 (? i: .…) | 表示 对 此 括号 内 的 内 容 进行 不 区 分 大 小 
写 的 匹配 ，T (2 -sm: ...) | 表示 在 此 范围 内 停 用 s 和 m 模 式 。 

正则 表达 式 之 外 ， 结 束 分 隅 人 符 之 后 的 模式 修饰 从 可 以 以 任何 顺序 组 织 ， 下 例 中 的 “sf? 表示 同时 局 用 不 区 
IK) BA A EC RTL 

if (preg_match('{ <title>(. * ?)</title > }si', $html, $captures)) 

PHP AMAIA ”列表 最 上 问 的 4 个 模 陈 修饰 符 属 于 标准 修饰 符 ， 在 第 3 草 〈 呈 110) 已 经 讨论 过 。 修 
饰 符 e 只 能 在 preg_replace 中 使 用 ， 详 细 的 讨论 见 对 应 的 小 节 (459) 。 

MSE Mutt Vipregs| %, VAUTF-84ehSAbeE IF Rais UALR EH. Meee econ | [| 











据 ， 只 是 更 改正 则 引擎 处 理 数 据 的 方式 。 默 认 《 也 残 是 未 使 用 模式 修饰 符 u) 的 情况 下 ，preg 引 擎 认为 接收 
的 数据 都 是 8 位 编码 的 《到 87) 。 如 琳 用户 知道 数据 是 UTF-8 编 码 的 ， 请 使 用 此 修饰 待 ， 人 否则 请 不 要 使 用 。 
lata 非 ASCII 字 和 从 以 多 个 字 市 来 存储 ， 使 用 u 修 饰 从 能 够 确保 多 个 字 市 会 被 作为 单个 字符 来 处 
i 

模式 修饰 符 X 局 用 PCRE 的 “额外 功能 Cextra stuff) ”， 目 前 它 只 有 一 个 效果 : 如 果 出 现 了 无 法 识别 的 反 
斜 线 序列 ， 就 报告 错误 。 例 如 ， 默 认 情 况 下 ，“ 炎 | 在 PCRE 中 没有 特殊 意义 ， 就 等 价 于 Ik) (因为 这 不 是 
一 个 已 知 的 元 序列 ， 所 以 反 笠 线 会 被 忽略 ) o WREE TRNEM, WaR “unrecognized character 
follows\”。 

未 来 版 本 的 PHP 可 能 包含 更 高 版 本 的 PCRE， 其 中 当前 没有 特殊 意义 的 反 和 斜 线 组 合 可 能 饭 赋 了 予 新 的 意 
义 ， 所 以 为 了 保持 未 来 的 兼容 性 (以 及 一 般 可 读 性 ) ， 最 好 是 不 要 转 义 不 需要 的 字母 ， 除 非 它们 现在 有 特 
殊 意 义 。 从 这 个 意义 上 说 ， 模 式 修 饰 人 符 X 意义 重大 ， 因 为 它 可 以 发 现 这 样 的 钳 误 。 

模式 修饰 符 S 调 用 PCRE 的 “study( 研 究 ) ”特性 ， 预 先 分 析 正 则 表达 式 ， 在 某 些 顺 利 的 情况 下 ， 在 尝试 
匹配 时 速度 会 大 大 提升 。 本 草 中 关于 效率 的 内 容 将 对 此 有 介绍 ， 请 参考 第 478 页 。 

剩 下 的 模 陈 修饰 符 实 用 价 全 不 大 ， 也 不 间 用 : 

e 模 式 修饰 符 A 把 匹配 锚 定 在 第 一 次 尝试 的 位 置 ， 就 等 于 整个 正则 表达 式 以 \G | 开头 。 如 果 用 第 4 章 的 
汽车 的 美 比 ， 这 残 是 关闭 传动 机 构 的 * 豫 动 过 程 ”〈 号 148) 。 

e 模 式 修饰 符 D 会 把 每 个 $| 替换 为 | 0S 112) , ED'S, 匹配 字符 串 的 末尾 ， 而 不 是 字符 串 之 内 的 


A=. beh 


换行 从 。 
e 模 式 修饰 符 U 交换 元 字符 的 匹配 优先 含义 ，1 久 | 和 大 ? | 交换， +| 和 1+? | 交换 ， 等 等 。 我 猜 
这 个 模式 修饰 符 的 主要 作用 在 于 制造 混乱 ， 所 以 我 完全 不 推荐 使 用 它 。 
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“Unknown Modifier siz 


有 时 候 ， 手 头 程序 忽然 会 报告 “Unknown Modifier” 错 误 。 我 绞 尽 脑汁 希望 找到 问题 
所 在 ， 最 终 忧 伐 大 悟 ， 原 来 自己 在 创建 模式 参数 时 忘 了 添加 分 隔 符 。 
例如 ， 我 可 能 布 望 这 样 匹配 HTML tag: 

preg match('<(\wt) ([*>]*)>"', $html) 
我 的 本 意 是 ， < ”是 正则 表达 式 的 一 部 分 ， 但 preg match 认为 它 是 起 始 分 隔 符 (我 
自己 忘 了 设 定 分 隔 符 ,这 还 能 怪 谁 呢 ? ) 。 所 以 ,这 个 参数 被 解释 为 "<(\WHE) (LS>]*)> ， 
其 中 的 正则 表达 式 以 灰色 标注 ， 模 式 修饰 符 以 下 画 线 标 注 。 
在 正则 表达 式 中 ，(\w+) ([^1 是 不 合法 的 , 但 是 在 发 现 并 报告 错误 之 前 , 正则 引 掌 会 试 
图 将 ]*)> 解释 为 一 串 模 式 修饰 待 。 但 它们 全 都 不 是 合法 的 模式 修饰 符 ， 所 以 ， 当 
然 会 报告 错误 。 

Warning: Unknown modifier ']j' 
显然 ， 我 需要 使 用 分 隔 香 : 

preg match('/<(\wt) (.*?)>/', $html) 
除非 我 知道 这 里 的 modifier 44 494 PHP 的 pattern 修饰 符 , 否 则 此 错误 报告 中 给 出 的 修 
饰 符 并 不 能 让 人 明白 ， 所 以 有 了 时候 我 得 花 点 时 间 才 能 找到 问题 所 在 。 每 次 遇 到 这 样 的 
问题 ， 我 都 觉得 自己 很 傻 ， 但 幸运 的 是 ， 没 人 知道 我 会 犯 这 种 低级 的 错误 。 
幸好 ，PHP5 最 近 版 本 的 报错 信息 改 成 了 这 样 : 

Warning: preg match(): Unknown modifier ']' 
因为 出 现 了 函数 名 ， 我 立刻 就 能 反应 过 来 。 不 过 ， 有 时 候 仍 然 需 要 花 很 多 时 间 来 查找 
漏 写 分 也 符 的 问题 ， 因 为 不 是 每 次 都 会 报错 。 比 如 下 面 这 段 程序 : 

preg match("<(\wt) (.*?)>', $html) 
RERET SDR, 但 (\w+) (.*?)1 仍 然 是 合法 的 正则 表达 式 。 唯 一 的 毛病 在 于 它 
不 能 匹配 我 期 望 的 结果 。 这 种 错误 不 易 款 觉 ， 非 第 棘手。 
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The Preg Functions 
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preg_match 
使 用 方法 
preg_match(pattern,subject[,matches|[,flags [,offset]]]) 
EBM fai SP 


pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 〈 嗓 444) 。 

subject 需要 搜索 的 目标 字符 串 。 

matches 非 强制 出 现 ， 用 来 接受 匹配 数据 。 

flags 非 强 制 出 现 ， 此 标记 位 会 影响 整个 水 数 的 行为 。 这 里 只 容许 出 现 一 个 标志 位 ， 
PREG OFFSET_CAPTURE('S452). 

offset 非 强制 出 现 ， 从 0 开始 ， 表 示 匹 配 竹 试 开 始 的 位 置 〈 嗓 453) 。 


返回 值 

如 果 找 到 匹配， 就 返回 true， 人 盏 则 返回 false。 
讲解 

最 简单 的 用 法 是 : 


preg_match($pattern,$subject) 
如 果 $pattern 在 $subject 中 能 找到 匹配 ， 束 会 返回 true。 下 和 面 有 几 个 简单 的 例子 : 


if (preg match('/\.(jpe?g|png|gif|bmp)$/i"', Surl)) { 
/* 图 片 的 URL */ 


if (preg mateh{" lI me /se Suri)) d 
/* URI A http dR https */ 


if (preg match('/\b MSIE \b/x', $ SERVER['HTTP USER AGENT'])) { 
/* 浏览 器 是 IE */ 
} 
捕获 匹配 数据 
preg_match 的 第 3 个 参数 如 果 出 现 ， 则 会 用 来 保存 匹配 结果 的 信息 。 用 户 可 以 照 上 自己 的 意愿 使 用 任何 变 
量 ， 不 过 最 常用 的 名 字 是 $matches。 在 本 书 中 ， 如 末 我 在 特定 的 例子 之 外 提 到 $matches， 指 的 整 
是 “preg_match 接 收 的 第 3 个 参数 ”。 
多 配 成 功 之 后 ，preg_match 人 返回 true， 并 按 如 下 规则 设置 $matches: 
Smatches [0] 是 正则 表达 式 匹 配 的 所 有 文本 
Smatches [1] 是 第 1 组 捕获 型 括号 捕获 的 文本 
Smatches [2] 是 第 2 组 捕获 型 插 号 捕获 的 文本 
如 有 果 使 用 了 命名 分 组 ，$matches 中 也 会 保存 对 应 的 元 素 〈 下 一 节 有 这 样 的 例 季 ) 。 
BSAP C191) 兽 出 现 过 这 个 简单 的 例子 : 


中 上 局 Dinux [|] www.linuxidc.com |] [] 








/* 输入 完整 路 径 ， 分 离 出 文件 名 */ 
if (preg match('{ / ([^/]+) $}x', SWholePath, Smatches) ) 
SFileName = Smatches[1]; 


最 好 是 在 preg_match 返 回 true 的 情况 下 用 $matches (随便 你 怎么 命名 ) 。 如 果 匹 配 不 成 功 ， 会 返回 
false， 或 者 错误 (例如 模式 错误 或 函数 标志 位 设置 错误 ) 。 有 的 错误 发 生 之 后 ，$matches 是 空 数组 ， 但 也 
有 时 候 它 的 值 不 会 变化 ， 所 以 我 们 不 能 认为 ，$matches 不 为 空 加 表示 匹配 功 。 

下 面 这 个 例子 使 用 了 3 组 捕获 型 括号 : 

/* KURL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg maten('{* (https?) s7/ (DYE CPs & CVG) ) 2 e's Sele Sacches) ) 


Sproto = 


Shost 


Sport = 





Smatches [1]; 
Smatches [2]; 
Smatches[3] ? Smatches[3] : (Sproto == "http" ? 80 :443); 


print "Protocols Sproto"; 
print “Host & Shosti"; 
print "Port § Sportin" 


BN 2A A ERA 5 DLAC” WIC AA 

QR ZARA SS RAS SRA, ESTE Di Smatches 24 Bye FB QE2) 。 需 要 说 
明 的 是 ，$matches 末 尾 的 空 字 符 串 都 会 被 忽略 。 在 前 面 那 段 程 序 中 ， 如 果 1' d+) | 参与 了 匹配 ， 
$matches[3] 会 你 存 一 个 数值 ， 否 则 ，$matches[3] 根 本 就 不 会 存在 。 


命名 捕获 


如 果 我 们 用 命名 捕获 CP 138) 重 写 之 前 的 例子 ， 正 则 表达 式 会 长 一 些 ， 不 过 代码 更 容易 阅读 : 
/* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg match('{*(2P<prote> https? ) i// 


Sproto 
Shost 
sport 
PELE 
pELHE 
print 


} 


(2P<host> [“/2]+ ) 
(2: : (?P<port> d ) J? +z"; Súr; Smatehes) ) 


= Smatches['proto']; 

= Smatches['host"]; 

= Smatches['port'] ? Smatches['port'] : (Sproto== "http" ?80 : 443); 
‘Protocol: proton"; 

“Host : Shost in": 

"Port : Spert in: 





命名 捕获 看 起 来 更 清晰 ， 这 样 我 们 不 需要 把 $matches 的 内 容 复 制 给 各 个 变量 ， 就 能 直接 使 用 变量 名 ， 
而 不 是 $matches， 例 如 这 样 : 


[| 日 Linux[| |] www.linuxidc.com [| L 


/* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg match('{*(?P<proto> https? ):// 
(?P<host> [*/:]+ ) 


(Fe £ C2P<eortS Va J }9 Ry, GUEL, SUELTHIS)) 
{ 
if (! $UrlInfo['port']) 
sUrlin®e ("port") = SUrlinte("prete*|] == "http" ? 80 i 443) % 
echo "Protocole "s SUrlLINIG[ *pEoto'|], Apr; 
echo "Host i t- SUSLIRTS*hest’*l, TATI 
echo "Port i ms SUErlinroel port], TAD" 


} 


如 采 使 用 了 命名 捕获 ， 按 数字 编号 的 捕获 仍然 会 插入 $matches。 例 如 ， 在 匹配 $url UE 
为 ‘http: //regex.info?) 之 后 ， 之 前 例子 中 的 $UrlInfo 包 合 : 


array 
( 
0 => 'http://regex.info', 
'DLOLG" =~ EC 
1 => '‘'http', 
' DOSL” => 'regex.info', 
2 => 'regex.info' 


) 

这 样 的 重复 有 点 浪 宪 ， 但 这 是 获得 命名 捕获 的 便捷 和 清晰 所 必须 付出 的 代价 。 为 清晰 起 见 ， 我 不 推荐 
同时 使 用 命名 和 数字 编号 来 访问 $matches 的 元 素 ， 当 然 用 $matches[0] 表 示 全 局 匹配 例外 。 

请 注意 ， 数 组 中 不 包括 编号 为 3 和 名 称 为 ‘port* 的 入 口 Centry) ， 因 为 这 一 组 捕获 型 括号 没有 参与 到 最 
终 匹 配 中 ， 而 且 处 于 最 后 〈 因 此 会 被 忽略 嗓 450) 。 

还 要 提 一 点 ， 尽 管 现在 使 用 例如 (? P<2>...) | 之 类 的 数字 命名 并 不 会 出 错 ， 但 这 种 做 法 并 不 可 
取 。PHP4 和 PHP5 在 人 处理 非 正 常情 况 时 会 有 所 区 别 ， 可 能 不 会 按照 个 人 的 意愿 友 展 ， 所 以 最 好 还 是 不 要 使 
用 数字 来 命名 捕获 分 组 。 

更 多 的 匹配 细节 : PREG_OFFSET CAPTURE 

MRE J preg match 的 第 4 个 参数 flags, WHEA PREG_OFFSET_CAPTURE (这 也 是 preg_match 
目前 能 够 接受 的 唯一 标志 位 〉， 则 $matches 的 每 个 元 双人 不 再 是 普通 字符 串 ， 而 是 由 两 个 元 素 构 成 的 子 数 
a a 
则 为 -1) 。 

偏 移 值 从 0 开始 ， 表 示 这 上 段 文本 相对 目标 字符 串 的 偏 移 值 ， 即 使 设置 了 第 5 个 参数 $offset， 仿 移 值 的 计 
算 也 不 会 变化 。 它 们 通常 按照 字 节 来 计数 ， 即 使 使 用 了 模式 修饰 符 u 也 是 如 此 (447) 。 

来 看 个 从 tag 中 提取 HREEF 属 性 的 例子 。HTMEL 的 属性 值 两 边 可 能 是 双 引 号 、 单 引号 ， 或 者 干脆 没有 引 
号 ， 这 样 的 值 在 下 面 这 个 正则 表达 式 的 第 1 组 、 第 2 组 和 第 3 组 捕获 型 括号 中 被 捕获 : 

preg match (*/hret’\s*=\s* (es = (LST [CP NTI Ve | Cee NS rel) R. ; 
Stag, 
Smatches, 
RPEG OFFSET CAPTURE) ; 


如 果 $tag 包 含 : 
<a name=bloglink href='http: //regex.info/blog/rel= " nofollow " >L RKI Z Ja, $matchesh' AN #7: 
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array 
( 
/* 全 局 匹配 的 数据 */ 
0 == array 0 => "href="http://regex.info/blog/'", 


L =a by ja 
/* 第 1 组 括号 的 匹配 数据 */ 
1 => array ( 0 => ™", 

1 => -1 ), 


/* 第 2 组 括号 的 匹配 数据 */ 
2 => array ( 0 => "http://regex.info/blog/", 
L => 23 ) 
) 


$matches[0][0] 包 售 正 则 表达 式 匹 配 的 所 有 文本 ，$matches[0][1] 表 示 匹 配 文 本 在 目标 字符 串 中 的 俩 移 





(fA, fe TR 


为 了 清晰 起 见 ， 另 一 种 获得 $matches[0][0] 的 办 法 是 : 
substr($tag,$matches[0][1],strlen($matches[0][0])7); 
$matches[1][H 是 -1， 表 示 第 1 组 捕获 括号 没有 参与 匹配 。 第 3 组 也 没有 参与 ， 但 是 因为 之 前 提 到 的 理由 


(2450) ， 结 尾 未 参与 匹配 的 捕获 括号 匹配 的 文本 不 会 包含 在 $matches 中 。 


offset 参 数 
UR preg_match 中 设置 了 offset 参数 ， 引 人 擎 会 从 目标 字符 串 的 对 应 位 置 开 始 《〈 如 果 offset 是 负数 ， 则 从 


字符 串 的 末尾 开始 倒数 ) 。 默 认 情 况 下 ，offset 是 0〈 也 就 是 说 ， 从 目标 字符 串 的 开头 开始 ) 。 


请 注意 ，offset 是 按 字 节 计数 的 ， 即 使 使 用 了 模式 修饰 符 u 也 是 这 样 。 如 果 设置 不 正确 (例如 从 某 个 多 





字 节 字符 的 < 内 部 "开始 ) 会 导致 匹配 失败 。 





即使 offset 不 等 于 0，PHP 也 不 会 把 这 个 位 置 标记 为 '^| 一 “字符 串 的 起 始 位 置 ， 它 只 表示 正则 引擎 开 
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preg_match_all 
使 用 方法 


preg_match_all(pattern,subject,matches [,flags [,offset]]) 

BB faj JP 

pattern 分 隔 符 包 围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 〈 喇 444) 。 

subject 需 要 检索 的 目标 字符 串 。 

matches 用 来 体 存 匹配 数据 的 变量 〈 必 须 出 现 ) 。 

flags 非 强制 出 现 ， 标 志 位 设 定 整个 函数 的 功能 : 

PREG OFFSET CAPTURE(@ 456) 

和 /或 任意 : 

PREG_PATTERN_ORDER( 455) PREG_SET_ORDER( 456) 

offsetSE oni HE, MOFI, Kr Bopp eee PILANE. (preg_matchhoffset A% 





17453) 。 


返回 值 
preg&_match_all 返 回 匹配 的 次 数 。 
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不 包含 任何 内 容 的 匹配 ， 还 是 无 法 匹配 


preg match 返回 的 Smatches 中 ， 空 字符 串 表 示 对 应 的 括号 没有 参与 匹配 (当然 ， 数 
组 末尾 的 空 字 符 囊 会 被 包 略 ) .因为 匹配 结果 也 可 能 是 空 字符 串 , 我 硕 望 没有 参与 匹配 
的 括号 捕获 的 文本 是 NULL， 


所 以 ,我 自己 编写 了 一 个 preg match (我 称 其 为 reg match) ,首先 使 用 PREG OFFSET 
CAPTURE 标志 位 来 获得 所 有 括号 内 的 自 表达 式 匹 配 结果 的 详细 信息 ， 然 后 根据 这 些 信 
息 在 Smatches 中 将 对 应 的 值 设 为 NULL: 
function reg match(Sregex, Ssubject, &$matches, Soffset = 0) 
{ 
sresult = preg match(Sregex, Ssubject, Smatches, 


PREG OFFSET CAPTURE, Soffset) ; 
if (Sresult) { 
Sf = create function('&$X', "SX = $X[1] <0 ? NULL: $X[0]; '); 


array walk (smatches, $f); 
} 
return Sresult; 


| 


reg match 的 结 果 等 于 在 不 指 定 任何 标志 位 的 情况 下 调用 preg_match, 区 别 在 于 ， 如 
果 某 组 括号 没有 参与 匹配 , 在 preg match 中 对 应 的 元 素 为 空 字符 事 ,而 在 reg match 
P ERT NULL, 


讲解 

preg_match_all 关 似 于 preg_match， 只 是 在 找到 第 一 个 匹配 之 后 ， 筷 会 继续 搜索 字符 串 ， 找 到 其 他 的 匹 
配 。 每 个 匹配 都 会 创建 一 个 包含 匹配 数据 的 数组 ， 所 以 最 后 ”matches 变量 束 是 一 个 二 维 数 组 ， 其 中 的 每 个 
子 数组 对 应 一 次 匹配 。 

这 里 有 个 简单 的 例子 : 


if (preg match all('/<title>/i', $html, $all matches) > 1) 
print "whoa, document has more than one <title>!\n"; 


preg_ match all RK YMERE TBM CHE ARIAT A VLA ee). MA, xs 
例子 中 虽然 没有 用 到 $all matches， 但 仍然 必须 设置 这 个 变量 。 


收集 匹配 数据 


preg_match 和 preg_match_all 的 为 一 个 主要 区 别 是 第 3 ”个 参数 中 的 数据 。preg_match 进 行 至 多 一 次 匹 
配 ， 所 以 它 把 匹配 的 数据 存储 在 matches 变 量 中 。 与 此 不 同 的 是 ，preg_match_all 能 匹配 许多 次 ， 所 以 它 的 第 
3 个 参数 保存 了 多 个 单 次 匹配 的 matches。 为 了 说 明 这 种 区 别 ， 我 使 用 $all_matches 作 为 preg_match_all 的 变 
量 名 ， 而 不 是 $preg_match 中 常用 的 $matches。 


preg_match_all 可 以 以 两 种 方式 在 $all_matches 中 存放 数据 ， 根 据 下 面 两 个 互 斥 的 第 4 个 参数 flag: 
PREG_PATTERN_ORDER 或 是 PREG_SET_ORDER 来 决定 。 
默认 的 排列 方式 是 PREG PATTERN ORDER 下 面 有 个 例子 〈 我 称 其 为 “ 按 分 组 编号 的 
(collated) ”一 一 稍 后 将 介绍 ) 。 如 果 没 有 设置 标志 位 ， 这 就 古 默认 的 配 列 方式 : 
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Ssubject = " 

Jack A. Smith 

Mary B. Miller"; 

/* 不 设置 flags KA PREG PATTERN ORDER */ 

preg match all ('/*(\wt) (\w\.) (\wt)$/m', Ssubject, $Sall matches); 


$all_ matches 的 结果 为 : 
array 
( 
/* Sall matches[0] 对 应 所 有 的 全 局 匹配 */ 
0 => array ( 0 => "Jack A. Smith", /* ZFRlkRERASHRTK */ 
1 => "Mary B. Miller" /* 第 2 次 匹配 的 全 部 文本 */ ), 


/* Sall matches[1] 对 应 第 1 组 捕获 型 括号 匹配 的 信息 */ 
1 => array ( 0 => "Jack", /* 第 1 次 匹配 中 的 第 1 组 捕获 型 括号 */ 
1 => "Mary" /* 第 2 次 匹配 的 第 1 组 捕获 型 括号 *7 J3 


/* $all matches[2] 对 应 第 2 组 捕获 型 括号 匹配 的 信息 */ 
2 => array ( 0 = "Aw", /* 第 1 次 匹配 中 的 第 2 组 捕获 型 括号 ai i 
1 => "B." /* 第 2 次 匹配 中 的 第 2 组 捕获 型 括号 my 和 


/* Sall matches[3] 对 应 第 3 组 捕获 型 括号 匹配 的 信息 */ 
3 => array ( 0 => "Smith", /* 第 1 次 匹配 中 的 第 3 组 捕获 型 括号 afi 
1 => "Miljler" /* 第 2 次 匹配 中 的 第 3 组 捕获 型 括号 “sf ) 
) 
一 共 匹 配 了 两 次 ， 每 次 都 包含 一 个 “全 局 匹配 ?字符 串 ， 以 及 3 ARATE SOM VA EA. RAH 
为 “ 按 分 组 编号 的 《collated) ”， 因 为 所 有 的 全 局 匹配 都 存放 在 一 个 数组 里 〈 在 $all matches[0]， 每 次 匹配 
中 ， 第 1 组 括号 配 的 文本 存放 在 另 一 个 数组 $all_matches[1] 中， 依次 类 推 。 
默认 情况 下 ，$all_matches 是 按 分 组 编写 的 ， 但 我 们 可 设置 PREG_SET_ORDER 来 改变 它 。 
PREG SET ORDER 排列 方式 如 果 设 定 了 PREG SET ORDER 标志 位 ， 就 会 采用 “ 堆 羞 (stacked) ”的 排 
列 方式 。 它 会 把 第 ”1 次 匹配 的 所 有 数据 保存 在 $all_matches[0] ”中 ,第 ”2 次 匹配 的 所 有 数据 保存 在 
$all matches[1] 中 ， 依 次 类 推 。 这 束 是 我 们 检索 字符 串 的 顺序 ， 把 每 次 成 功 下 配 的 $matches 放 进 
$all matches 数 组 中 。 
下 面 是 之 前 那个 例子 的 PREG_SET_ORDER 的 版 本 : 
Ssubject = " 
Jack A. Smith 
Mary B. Miller"; 


preg match all('/*(\wt) (\w\.) (\wt)$/m', Ssubject, Sall_ matches, PREG SET ORDER) ; 


结果 是 : 
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array 
( 
/* Sall matches[0] 等 价 于 preg match 的 Smatches */ 
0 => array (0 => "Jack A. Smith", /* 第 1 次 整体 匹配 */ 


=> "Jack", /* 第 1 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 => "AL", /* 第 1 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Smith" /* 第 工 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 


/* Sall matches[1] 竹 价 于 Preg match 的 Smatches */ 
1 => array (0 => "Mary B. Miller", /* 弟 工 次 整体 匹配 */ 


1 => "Mary", /* 第 2 次 整体 匹配 的 第 工 个 捕获 型 括号 */ 
2 => "B.", /* 第 2 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
=> "Miller" /* 第 2 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 


) 
两 种 排列 方式 的 总 结 如 下 : 


x n 说 明 及 示例 
将 各 次 匹配 中 同样 编号 的 分 组 编 在 一 起 


$all matches[$paren num] [$match_num] 


ee $all matches [$match_num] [Sparen num] 


preg_match_all 和 PREG_OFFSET_CAPTURE 标 志 位 
WIA preg_match 一 样 ， 也 可 以 在 preg_match_all 中 使 用 PREG_OFFSET_CAPTURE， 让 $all_matches 的 ] 
BES Aino (leaf element) 成 为 一 个 两 个 元 对 的 数组 (| 罗 配 的 文本 ， 以 及 按 字 节 计 算 的 偏 移 值 )。 也 整 
是 说 ，$all_matches 成 为 一 个 数组 的 数组 的 数组 ， 这 可 真 馈 和 于。 如 果 你 希望 同时 使 用 
PREG_OFFSET CAPTURE 和 PREG_SET_ ORDER， 请 使 用 逻辑 运算 符 “or" 来 连接 : 
preg match all($pattern, Ssubject, $all_ matches, 
PREG OFFSET CAPTURE | PREG SET ORDER) ; 


按 分 组 编号 PREG PATTERN ORDER 





preg_match_all 与 命名 分 组 
如 末 使 用 了 命名 分 组 ，$all_matches 将 会 多 出 命名 元 素 〈 同 preg_match 一 样 味 451) 。 这 段 程 序 : 
Ssubject = " 
Jack A. Smith 
Mary B. Miller"; 
/* 不 设置 flags 就 采用 PREG PATTERN ORDER */ 
preg match all('/*(?P<Given>\wt+) (?P<Middle>\w\.) (?P<Family>\w+)$/m', 
p 7 ssubject, sall matches); 


$all_ matches 的 结果 是 : 
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array 


( 0 => array ( 0 => "Jack A. Smith", 1 => "Mary B. Miller" ), 
"Given" => array ( 0 => "Jack", 1 => "Mary" F 
1 => array ( 0 => "Jack", 1 => "Mary" T 
"Middle" => array ( 0 => "A.", L => ™B." F 
2 => array ( 0 => "A.", L => "B." F 
"Family" => array ( 0 => "Smith", 1 => "Miller" ) ， 
3 => array ( 0 => "Smith", 1 => "Miller" ) 


如 果 使 用 PREG SET ORDER: 


Ssubject = " 

Jack A. Smith 

Mary B. Miller"; 

preg match all('/*(?P<Given>\w+) (?P<Middle>\w\.) (?P<Family>\wt)$/m', 
Ssubject, sall matches, PREG SET ORDER) ; 


ZE FRI Et 
array 
( 
0 => array (0 => "Jack A. Smith", 
Given => "Jack", 
1 => "Jack", 
Middle => "A.", 
Z => "A.", 
Family => "Smith", 
3 => “Smith” jj 
1 => array (0 => "Mary B. Miller", 
Given => "Mary", 
1 => "Mary", 
Middle => "B.", 
2 => "B.", 
Family => "Miller", 
3 => "Miller" ) 


) 


我 个 人 认为 ， 在 使 用 了 命名 分 组 之 后 ， 束 应 该 去 拯 数 字 编 号 ， 因 为 这 样 程序 更 清晰 ， 效 率 更 高 ， 不 
， 如 果 它 们 被 保留 了 ， 你 可 以 当 它 们 不 存在 。 


preg_replace 
使 用 方法 
preg_replace(pattern,replacement,subject [,limit [,count]]) 
BDH IT 


Bz patterns batt O BERERA, ARE METAS. patternty H Béz —~Mpattern-argument FF E HY 
KOE. 

replacement replacement FFE, WRpattenze —“S202H, Wlreplacementze BB PF FF F HZH. AU 
果 使 用 了 模式 修饰 从 e， 则 字符 串 (或 者 是 数组 中 的 字符 串 ) 会 被 当 作 PHP 代 人 码 C2459) 。 

subject 需 要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 〈 按 顺序 依次 处 理 ) 。 

limit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 奉 换 发 生 的 上 限 (二 460) 。 

count 非 强制 出 现 ， 用 来 保存 实际 进行 的 蔡 换 疯 数 Ld pbs ee! | deayww.linuxidc.com [] [] 


返回 值 
如 条 subject 是 蛙 个 字符 串 ， 则 返回 值 也 古 一 个 字符 串 (subject 的 副本 ， 可 能 经 过 修改 ) 。 
如 果 subject 是 字符 串 数 组 ， 返 回 值 也 是 数组 (包含 subject 的 副本 ， 可 能 经 过 修改 〉。 
讲解 
PHP 提供 了 许多 对 文本 进行 得 找 - 奉 换 的 办 法 。 如 末 奏 找 部 分 可 以 用 普通 的 字符 串 摘 述 ，str_replace 或 
者 str_ireplace 残 更 合适 ， 但 是 如 果 奏 找 比 较 复 杂 ， 束 应 该 使 用 preg_replace. 
来 看 一 个 简单 的 例子 : 在 Web 开 及 中 经 各 会 过 到 这 样 的 任务 ， 把 信用 卡号 或 电话 号 但 得 入 一 张 表单 。 
你 是 含 经 名 看 到 “不 要 输入 空格 和 连 字 符 ” 的 提示 ? 要 求 用 户 按 规则 输入 数据 ， 还 是 由 程序 员 做 一 氮 小 小 的 
改进 ， 让 用 户 可 以 照 上 自己 的 习惯 输入 数据 ? 哪 种 办 法 更 好 《〈 注 3) ? 毕竟 ， 这 里 我 们 的 要 求 融 是 “清理 "这样 
的 输入 数据 : 
$card number = preg replace('/\Dt+/', ' ', S$card number); 
/* Scard number 只 包含 数字 ， 或 者 为 空 */ 


其 中 用 preg replace 来 去 挥 非 数 字 字 符 。 更 确切 的 说 ， 它 用 preg_replace 来 生成 $card_number 的 副本 ， 
将 其 中 的 非 数字 字符 符 换 为 空 〈 空 字符 串 ) ， 把 这 个 经 过 修改 的 副本 赋值 给 $card_number。 

AFIR, E RA preg_replace 

=A (pattern, replacement 和 subject) 都 是 既 可 以 为 字符 串 ， 也 可 以 为 字符 串 数组 。 通 党 这 
三 者 都 是 普通 的 字符 串 ，preg_replace 首先 生成 subject 的 副本 ， 在 其 中 找到 pattern 的 第 1 次 匹配 ， 将 匹配 的 
区 本 蔡 换 为 replacement， 人 然后 重复 这 一 过 程 ， 直 到 搜索 到 字符 串 的 末尾 。 

在 replacement 字 符 串 中 ，'$0: 表 示 匹 配 的 所 有 文本 ，'5$1 表 示 第 1 组 捕获 型 括号 匹配 的 文本 ，52: 表 示 第 
2 组 ， 依 次 类 推 。 请 注意 ， 美 元 人 符 加 数字 的 字符 序列 并 不 会 引用 变量 ， 虽 然 它 们 在 其 他 东 些 语言 中 有 这 种 功 
能 ， 但 是 preg replace ”能 识别 简单 的 序列 ， 并 进行 特殊 处 理 。 你 可 以 使 用 一 对 花 括 所 来 包围 数字 ， 比 
如 '“${0} 和 5${1}， 这 样 就 不 会 引起 混 请 。 

这 个 简单 的 例子 把 HTML 的 bold tag 转 换 为 全 部 大 写 : 

$html=preg_replace(‘Ab[A-Z]{2, }\b/',; <b >$0</b>',$html); 

如 果 使 用 了 模式 修饰 符 e《〈 它 只 能 出 现在 preg_replace 中 ) , replacement 77 /F NPHP{KAS, FRIE 
配 时 执行 ， 结 果 作 为 replacement 字 符 串 。 下 面 这 个 扩展 的 例子 把 bold tag 里 的 单词 变 为 小 与: 

$html = preg replace('/\b[A-2Z]{2,}\b/e', 
'strtolower ("<b>S0</b>")', 
SHEMI j 


UR IE Wl eer& SUC AC AY E HEY’, replacement 447R FASO WSR AIX-ME. 255k, replacement 
FITR J ‘strtolower (" <bD>HEY</b>" ) ’, $U47IXERPHP{VES, ZR Wee‘ <b>hey</b>’. 
如 果 使 用 模式 修饰 从 e, replacement 字符 串 中 的 捕获 引用 会 按照 特殊 的 规定 来 插值 : 插值 中 的 引号 
(《 单 引 且 或 双 引 号 ) 会 转 义 。 如 果 不 这 样 处 理 ， 插 入 的 数值 中 的 引号 会 导致 PHP 代码 出 错 。 
如 果 使 用 模式 修饰 符 e， 在 replacement 字 人 符 吕 中 引用 外 部 变量 ， 最 好 是 在 replacement 字 符 串 文本 中 使 用 
单 引 号 ， 这 样 变 量 驶 不 会 进行 错误 的 插值 。 
这 个 例子 类 似 于 PHP 内 建 的 htmlspecialchars O KA: 
Sreplacement = array ('&' => '&amp; ', 
'<' => 5 
i's = 'égt; ' 
uHe => "Eouote "bh; 














$new_subject=preg_replace (/[&< " >J/eS', '$replacement[ " $0 " ]', $subject) ; 需要 注意 ， 这 个 例子 
中 的 replacement 使 用 了 单 引 号 字符 串 来 避免 $replacement 变 量 插值 ， 直 到 将 其 作为 PHP 代 码 执 行 。 如 果 使 用 
双 引 号 字符 串 ， 在 传递 给 preg_replace 之 前 ， 插 值 就 会 进行 。 

可 以 用 模式 修饰 符 $ 用 来 提高 效 诸 (号 478) 。 

preg_replace 的 第 4 个 参数 用 来 设 定 和 蔡 换 操作 次 数 的 上 限 〈 单 位 是 单个 字符 串 - 单 个 正则 表达 式 ， 参 见 
BW) 。 默 认 值 是 -1， 表 示 “ 没 有 限制 ”。 


如 果 设 置 了 第 5 个 参数 count (PHP4 没 有 提供 ) i 平公 由 窒 作 全 RS 和 Te 站 ac Oa ze Yah off 


升 望 知道 是 含 发 生 了 和 蔡 换 ， 可 以 比较 原来 的 目标 字符 串 和 结果 ， 不 过 检查 count 参 数 效 率 更 高 。 

BPA, RAL 

前 一 节 已 经 提 到 ， 目 标 字 符 串 通 利 是 普通 字符 串 ， 人 至 少 我 们 目前 看 到 的 所 有 例子 都 是 如 此 。 不 过 ， 
subject 也 可 以 是 一 个 字符 串 数 组 ， 这 样 搜索 和 答 换 是 对 每 个 字符 串 依 次 进行 的 。 返 回 值 也 是 由 每 个 字符 串 
经 过 搜索 和 符 换 之 后 的 数组 。 
J 无 论 使 用 的 是 字符 串 还 是 字符 串 数组 ，pattern 和 replacement 参 数 也 可 以 是 字符 串 数组 ， 下 面 是 各 种 组 
合 及 其 意义 : 





Pattern Replacement | 行为 

F ky i 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 

数组 轮流 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 

字符 串 轮流 应 用 pattern , 将 每 次 匹配 的 文本 替换 为 对 应 的 Teplacement 
数组 不 容许 


如 果 subject 人 参数 是 数组 ， 则 依次 处 理 数组 中 的 每 个 元 素 ， 返 回 值 也 是 字符 串 数 组 。 


请 注意 limit 参 数 是 以 单个 pattern 和 单个 subject 为 单位 的 。 它 不 是 对 所 有 的 pattern 和 subject 和 生效。 返回 的 
$count 则 是 所 有 pattern 和 subject 字 符 串 所 进行 操作 次 数 的 总 合 。 


这 里 有 一 个 preg_replace 的 例子 ， 其 中 pattern 和 replacement 都 是 数组 。 其 结果 类 似 于 PHP 内 建 的 
htmlspecialchars () 函数 ， 它 保证 处 理 过 的 文本 符合 HTML 规 范 : 
scooked = preg replace ( 
/* 要 匹配 的 文本 . . . “ arcat /ee EA e aa "A Jy 
/* 要 替换 的 文本 . . . RS array (' Sampy'; "Slte'; "kate, kame 
/* .. .要 操作 的 目标 字符 串 */ $text 





); 

如 果 输 入 的 文本 是 : 

AT&T--> " baby Bells " 

$cookedH) {8 Wize : 

AT&T--&gt;&quot;baby Bells&quot; 

当然 也 可 以 预先 准备 好 这 些 数 组 ， 下 面 的 程序 运行 结果 相同 : 
Spatterns = Beeave tyes’, AR "fata TF! Te 
Sreplacements = array ('&amp;', '&lt;', '&gt;', '&quot;'); 


scooked = preg replace(Spatterns, Sreplacements, $text); 


preg replace 能 够 接收 数组 作为 参数 是 很 方便 的 〈 这 样 程 序 员 束 不 需要 使 用 循环 在 各 个 pattern 和 subject 
PITZ ， 但 是 它 的 功能 并 没有 增 踢 。 比 如 ， 各 个 pattern 并 不 是 “并 行 ? 处 理 的 。 但 是 ， 相 比 目 己 写 PHP 
循环 代码 ， 内 建 的 处 理 效率 更 高 ， 而 且 更 容易 阅读 。 为 了 说 清楚 ， 请 参考 这 个 例子 ， 其 中 所 有 的 参数 都 是 
数组 : 

$result_array=preg_replace($regex_array, $replace_array, $subject_array); 

它 等 价 于 : 





[| 日 Linux[| [|] www.linuxidc.com |] [] 


eresult array = array(); 
foreach ($subject array as $subject) 
{ 
reset ($regex array); // 准备 遍历 两 个 数组 
reset ($replace_ array); // 把 数组 指针 恢复 到 开头 位 置 


while (list(,S$regex) = each ($regex array) ) 
{ 
list (, replacement) = each($replace array); 
// regex 和 replacemnet 已 经 准备 就 绪 ， 应 用 到 subject ... 
Subject = preg replace(Sregex, Sreplacement, S$subject); 
} 
// 已 经 处 理 完 所 有 的 regex, Æ subject 处 理 完 毕 ... 
$result array[] = $subject; // ... 附 加 到 结果 数组 中 
} 
数组 参数 的 排序 问题 如 果 pattern 和 replacement 都 是 字符 串 ， 它 们 会 根据 数组 的 内 部 顺序 配对 ， 这 种 顺 
序 通 常 束 是 它们 添加 到 数组 中 的 先后 顺 友 (pattern 数组 中 添加 的 第 1 个 元 素 对 应 replacement 数组 中 的 第 1 
个 元 素 ， 依 次 类 推 ) 。 也 就 是 说 ， 对 于 array O 创建 的 “文本 数组 ”来 说 ， 排 序 没有 问题 ， 例 如 : 
Ssubject = "this has 7 words and 31 letters"; 


$result = preg replace(array('/[a-z]+/', '/\dt/'), 
array ("word<S0>", "num<S0>"), 
Ssubject) ; 


print “result: Sresult\n"; 


[a-z]+ | 对 应 “word<$0>:， 下 面 的 \d+| 对 应 num<$0>'， 结 果 就 是 
result: word<this> word<has> num<7> word<words> word<and> num<31> word<letters > +H 
2, WER pattern 或 replacement 数组 是 多 次 填 序 的， 数组 的 内 部 顺序 可 能 束 不 同 于 keys 的 顺序 (也 束 古 
说 ， 由 keys 表示 的 数字 顺序 ) 。 所 以 前 一 页 的 程序 使 用 数组 模拟 preg_replacement 的 程序 要 使 用 each 来 按照 
数组 的 内 部 顺序 过 历 整 个 数组 ， 而 不 关心 它们 的 keys 如 何 。 
如 果 pattern 或 replacement 数组 的 内 部 顺序 不 同 于 你 希望 匹配 的 顺序 ， 可 以 使 用 ksort ©) 图 数 来 确保 
每 个 数组 的 实际 顺序 和 外 表 顺 序 是 相同 的 。 
如 果 pattern 和 replacement 都 是 数组 ， 而 pattern 中 元 素 的 数目 多 于 replacement 中 的 元 素 ， 则 会 在 
replacement 数 组 中 产生 对 应 的 空 字 符 串 ， 来 进行 配对 。 
pattern 数组 中 的 元 素 顺 序 不 同 ， 结 果 可 能 大 不 相同 ， 因 为 它们 是 按照 数组 中 的 顺序 来 处 理 的 。 如 果 把 
例子 中 的 pattern 数 组 的 顺序 三 倒 过 来 (把 replacement 数 组 中 的 顺序 也 显 倒 过 来 ，”， 结 果 是 什么 呢 ? 也 就 是 
说 ， 下 和 面 代码 的 结果 是 什么 呢 ? 
Ssubject = "this has 7 words and 31 letters"; 
eresult = preg replace(array('/\d+t+/', '/[a-z]+/"), 
array('num<\0>', 'word<\0>'), 
Ssubject) ; 
print. “results Sresult\n"; 


请 翻 到 下 页 查看 答案 。 
preg_replace_callback 


使 用 方法 l l 
preg_replace_callback (pattern, callback, subidel Heid, Lino dl www.linuxidc.com L | 


pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 C5444) 。 也 可 能 是 字符 串 数 组 。 

callback PHP 回 调 函 数 ， 每 次 匹配 成 功 ， 驶 执行 它 ， 生 成 replacement 字 人 符 串 。 

subject 需要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 〈 依 次 处 理 ) 。 

limit 非 强制 出 现 ， 设 定 蔡 换 操作 的 上 限 (人 460) 。 

count 非 强制 出 现 ， 用 来 你 存 实际 发 生 蔡 换 的 次 数 〈( 只 在 PHP 5.1.0 中 提供 ) 。 

返回 值 

如 果 subject 是 字符 串 ， 返 回 值 就 是 字符 串 (其实 是 subject 的 一 个 副本 ， 可 能 经 过 了 修改 ) 。 如 果 subject 
是 字符 串 数组 ， 返 回 值 就 是 数组 (每 个 元 系 都 是 subject 中 对 应 元 系 的 副本 ， 可 能 发 生 了 修改 ) 。 

讲解 

preg_replace_callback 类 似 于 preg_replace， 只 是 replacement 参数 变 成 了 PHP 回调 函数 ， 而 不 是 字符 串 
或 是 字符 串 数 组 。 它 有 点 像 使 用 模式 修饰 符 e 的 preg_replace (459) ， 但 是 效率 更 高 〈 如 果 replacement 部 
分 的 代码 很 复杂 ， 这 种 办 法 更 易于 阅读 ) 。 

请 参考 PHP 文 档 获 得 更 多 关于 回调 的 知识 ， 不 过 简单 地 说 ，PHP 回 调 引 用 《以 许多 种 方式 中 的 一 种 ) 
一 个 预先 规定 的 函数 ， 以 预先 规定 的 参数 ， 返 回 预 先 规 定 的 值 。 在 preg_replace_callback 中 ， 每 次 成 功 匹 配 
之 后 都 会 进行 这 种 调用 ， 参 数 是 $matches 数组 。 函 数 的 返回 值 用 作 preg_replace_callback 作 为 replacement。 

回调 可 以 以 三 种 方式 引用 函数 。 一 种 是 直接 以 字符 串 形 陈 给 出 函数 名 ; 男 一 种 是 用 PHP 内 建 的 
create_function 生 成 一 个 匿名 函数 。 稍 后 我 们 会 看 到 使 用 这 两 种 方法 的 例子 。 第 三 种 方式 本 书 没有 提 及 ， 卸 














采用 和 面 回 对 象 的 方式 ， 由 一 个 包含 两 个 元 系 〈 分 别 是 类 名 和 方法 名 〉 的 数组 构成 。 


测验 答案 


462 页 问题 的 答案 
462 页 问题 中 的 程序 运行 结果 如 下 (为 了 适应 排版 ， 进 行 了 折 行 ): 


result: word<this> word<has> word<num><7> word<words> 
word<and> word<num><31> word<letters> 


如 果 这 两 处 粗 体内 容 出 乎 你 的 意料 ， 原 因 在 于 ， 使 用 多 个 正则 表达 式 的 preg_match 
(使 用 pattern 数组 ) 并 不 会 “并行 ”处理 这 些 pattern， 而 是 依次 进行 。 

在 这 个 例子 中 ， 第 1 组 pattern/replacement 会 在 subject 中 添加 两 个 num<…> ,这 两 个 
‘num 会 被 数组 中 的 下 一 个 pattern Lat, AGA “num 变 成 “worq<num> ,最 

终 得 到 这 个 意料 之 外 的 结果 。 

这 个 例子 告诉 我 们 ， 如 果 preg replace 使 用 了 多 个 pattern, 一定 要 注意 安排 它们 的 

顺 厅 。 





下 面 这 个 例子 用 preg_replace_callback 和 辅助 函数 重 写 了 第 460 页 的 程序 。callback 人 参数 是 一 个 字符 串 ， 
包含 辅助 函数 的 名 字 : 


[| 日 Linux[| [|] www.linuxidc.com |] [] 


Sreplacement = array ('&' => 'é&amp;' 


a! =y Eeler’ 
Th => "eges " 
twee => 'equ0ts )3 


/* 
* 匹配 成 功 之 后 ，Smatches [0] 中 保存 的 是 需要 转换 为 HIM 的 字符 串 ， 以 此 为 接受 参数 ,返回 
* HTML 字符 串 。 因 为 此 函数 只 在 确保 安全 的 情况 下 调用 ， 此 处 不 考虑 意外 情况 
fF 

function textZ2html callback (Smatches) 

{ 

global Sreplacement; 
return Sreplacement [Smatches[0]]; 
} 
Snew subject = preg replace callback('/[&<">]/S', /* pattern */ 
"eextZhtml, callback", /* callback */ 
Ssubject); 


如 果 $subject 的 值 是 : 
" AT&T" sounds like " ATNT " 

则 $new_subject 的 值 就 是 : 

&quot;AT & T&quot;sounds like&quot; ATNT &quot; 

本 例 中 的 text2html_callback 是 普通 的 PHP 子 数 ， 用 作 preg_replace_callback 中 的 回调 孔 数 ， 它 的 接收 参数 
征 $matches 数 组 〈 当 然 ， 这 个 变量 可 以 随意 命名 ， 不 过 我 选择 遭 循 之 前 使 用 $matches 的 惯例 ) 

为 完整 起 抑 ， 下 面 我 给 出 使 用 匿名 函数 的 办 法 《使 用 PHP 内 建 的 create_function 函 数 ) 。 这 段 程序 产生 
的 $replacement 变 量 与 上 面 一 样 。 函 数 体 也 相同 ， 只 是 此 时 函数 没有 名 字 ， 只 能 在 preg_replace_callback 中 使 
H: 


snew subject = preg replace callback('/[&<">]/S', 
create function('Smatches' 
‘global Sreplacement; 
return Sreplacement[Smatches[0]];'), 
Ssubject) ; 


使 用 callback， 还 是 模式 修饰 符 e 

如 果 处 理 不 复杂 ， 使 用 模式 修饰 符 的 程序 比 preg_replace_callback 更 容易 看 懂 。 但 是 ， 如 果 效 率 很 重 
要 ， 那 么 请 记 住 ， 如 果 使 用 模式 修饰 符 e， 每 次 匹配 成 功 之 后 都 需要 检查 作为 PHP 代 码 的 replacement 参 数 。 
相 比 之 下 ，preg_replace_callback 的 效率 束 要 高 许多 CORE, PHP RRA) 。 





preg_split 


EIIN IA 

preg_split(pattern,subject [,limit,[flags]]) 

参数 简介 

pattern 分 隅 从 包围 起 来 的 正则 表达 式 ， 可 能 还 有 修饰 从 (二 444) 。 
subject 需要 分 割 的 目标 字符 串 。 

limit 非 强制 出 现 ， 征 一 个 整数 ， 表 示 切 分 之 后 元 素 的 上 限 。 
flags 非 强制 出 现 ， 此 标志 位 影 啊 整 个 切割 行为 ， 以 下 三 项 可 以 随意 组 合 


中 上 局 Dinux [|] www.linuxidce.com |] [] 


PREG SPLIT NO EMPTY 
PREG SPLIT DELIM CAPTURE 
PREG SPLIT OFFSET CAPTURE 
它们 的 讲解 从 第 468 页 开始 。 多 个 标志 位 使 用 二 元 运算 符 “ 或 "来 连接 〈 与 第 456 页 一 样 ) 。 
返回 什 
返回 一 个 字符 串 数组 。 
讲解 
preg_split 会 把 字符 串 的 副本 切 分 为 多 个 片段 ， 以 数组 的 形式 返回 。 非 强制 出 现 参数 limit 设 定 返 回 数组 
中 元 素数 目的 上 限 (如 果 需 要 ， 最 后 的 元 素 包括 “其 他 所 有 字符 ”) 。 可 以 设 定 不 同 的 标志 位 来 调整 返回 的 
方式 和 内 容 。 
从 某 种 意义 上 来 说 ，preg_split 做 的 是 与 preg_match_all 相 反 的 事情 : 它 找 出 目标 字符 串 中 不 能 由 正则 表 
达 式 匹配 的 部 分 。 或 者 更 传统 地 说 ，preg_split 返 回 的 是 ， 将 目标 字符 串 中 正则 表达 式 匹 配 的 部 分 删 去 之 后 
的 部 分 。preg_split 大 概 相当 于 PHP 中 内 建 的 简单 explode 函 数 ， 不 过 使 用 的 是 正则 表达 式 ， 而 且 功能 更 强 
大 。 





来 看 个 简单 的 例 于 ， 如 末 寺 家 金融 网 站 需要 接收 用 空格 分 隔 的 股票 行情 。 可 以 使 用 explode 拆 分 这 些 行 
情 数 据 : 

$tickers=explode(",$input); 

不 过 ， 如 果 输 入 数据 时 不 小 心 输入 了 不 只 一 个 空格 ， 这 个 程序 就 不 能 处 理 了 。 更 好 的 办 法 是 使 用 
preg_split， 用 正则 表达 式 '\st+) 来 切 分 : 

$tickers=preg_split(As+/,$input); 

除了 明确 运用 “用 空格 切 分 ”的 规则 之 外 ， 用 户 也 通常 使 用 逗号 (或 者 是 逗号 加 空格 ) 来 分 隔 ， 比 
如 YHOO，MSFT，GOOG’。 这 些 情 况 也 很 容易 处 理 : 

$tickers=preg_split('/[\s,]+/',Sinput); 

针对 上 面 的 数据 ，$tickers 得 到 的 是 包含 3 个 元 系 的 数组 : ‘YHOO’. ‘MSFT’ #l‘GOOG’. 

如 果 输 入 的 数据 是 逗号 分 隔 的 《例如 给 照片 标 记 tag 时 使 用 的 “Web 2.0，”) ， 束 需要 用 [\s*, \s* | 
来 处 理 : 

$tags=preg_split('^s * \s 类 /,$input); 

比较 sx, sxi 和 [Ns，]+| 很 能 说 明 问 题 。 前 者 用 逗号 来 切 分 (逗号 必须 出 现 ) ， 但 也 会 删 去 逗号 








两 边 的 空白 字符 。 如 果 输 入 ‘123，，，456’”， 则 能 够 进行 3 次 匹配 (每 次 匹配 一 个 人 逗号 ) ， 返 回 4 个 元 
A: “123”， 两 个 空 字 符 串 ， 最 后 是 ‘456’。 

另 一 方面 ， fs，]+ | 会 使 用 任何 逗号 、 连 续 的 逗号 、 衬 日 字符 ， 或 者 是 空白 字符 和 速 号 的 结合 来 切 
4}. 465123, , , 456, 'E— ApeL Mes, BREAN, ‘123’ Fl‘456’. 


limit 2 

limit 参数 用 来 设 定 切 分 之 后 数组 长 度 的 上 限 。 如 采 搜 索 疝 未 进行 到 字符 串 结 尾 时 ， 切 分 的 请 段 的 数目 
己 经 达到 limit， 则 之 后 的 内 容 会 全 部 保存 到 最 后 的 元 系 当 中 。 

来 看 个 例子 ， 我 们 需要 手工 解析 服务 需 返 回 的 HTTP response。 按 照 标 准 ，header 和 body 的 分 隅 是 四 
字符 序列 An ?， 不 对 的 是 ， 有 的 服务 占 使 用 的 却 是 nn’*。 和 对 好 ， 我 们 有 preg_split， 很 容易 处 理 这 两 种 
情况 。 假 设 整 个 response 保 存在 $response 中 : 

$parts=preg_split('^r?\n\r?\n/x',$response,2); 

header 保 存在 $parts[0] 中 ， 而 body 保 存在 $parts[1 中 《使 用 模式 修饰 符 $ 是 为 了 提高 效率 号 478) 。 

第 3 个 参数 ， 即 limit 的 值 等 于 2， 表 示 subject 字 人 符 串 最 多 只 能 切 分 成 两 个 部 分 。 如 果 找 到 了 一 个 匹配 ， 
风 配 之 前 的 部 分 (也 就 是 header) 会 成 为 返回 值 的 第 一 个 元 素 。 因 为 “字符 串 的 其 他 部 分 ?是 第 2 个 元 素 ， 这 
样 就 到 达 了 了 上限， 它 〈 我 们 知道 是 body) 会 原封 不 动 地 作为 返回 值 中 的 第 二 个 元 又。 

如 果 没 有 limit( 或 者 limit 等 于 -1， 这 两 种 情况 是 等 价 的 ) ，preg_split 会 尽 可 能 多 地 切 分 subject 字 人 符 串 ， 
这 样 body 可 能 也 会 被 切 分 为 许多 段 。 设 置 上 限 并 不 能 保证 返回 的 数组 中 包含 的 元 素 焉 等 于 这 个 数 ， 而 只 是 
保证 最 多 包含 这 么 多 元 素 〈 阅 读 关 于 PREG_SPLIT_DELIM_CAPTURE 的 小 节 ， 你 会 发 现 其 至 这 种 说 法 也 不 
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在 两 种 情况 下 ， 应 该 人 为 设置 上 限 。 我 们 已 经 见 过 一 种 情况 : 希望 最 后 的 元 素 包 含 “ 其 他 所 有 内 容 ”。 
在 前 一 个 例子 中 ， 一旦 第 一 段 Cheader) 家 切 分 出 来 ， 我 们 束 不 希望 再 对 其 他 部 分 (body) 进行 切 分 。 所 
以 ， 把 上 限 设 为 2 会 保留 body。 

如 果 用 户 知 道 自 己 不 需要 切割 出 来 所 有 元 素 ， 也 可 以 设 定 上 限 ， 提 高 效率 。 例 如 ， 如 果 $data 字 符 串 包 
AU sx, sx) 分 隔 的 许多 字段 〈 比 如 姓名 、 地 址 、 年 龄 ， 等 等 ) ， 而 只 需要 前 面 两 个 ， 就 可 以 把 limit 
设置 为 3， 这 样 preg_split 在 切 分 出 前 两 个 字段 之 后 就 不 会 继续 工作 : 

$fields=preg_split('^s * ,\s * /x',$data,3); 

XERE ARRAES, Fela Haray_popoRK HR, KAALA. 

如 果 你 希望 在 没有 设置 上 限 的 情况 下 使 用 任何 preg_split 标 志 位 〈 下 一 节 讨 论 ) ， 则 必须 提供 一 个 占 位 
符 ， 将 limit 设 置 为 -1， 它 表示 “没有 限制 ”。 相 反 ， 如 果 1limit 等 于 1， 则 表示 “不 需要 切 分 ”， 所 以 它 并 不 铺 
用 。 上 限 等 于 0 或 者 -1 之 外 的 任何 负数 都 没有 定义 ， 所 以 请 不 要 使 用 它们 。 

flag 参 数 

preg_split 中 可 以 使 用 的 3 个 标志 位 都 会 影响 函数 的 功能 。 它 们 可 以 单独 使 用 ， 也 可 以 用 二 元 运算 
从 “or” 连 接 (参见 第 456 页 的 例子 )。 

PREG_SPLIT_OFFSET_CAPTURE MAATE preg_match 和 preg_match_all 中 使 用 
PREG_OFFSET_CAPTURE 一 样 ， 这 个 标志 位 会 修改 结果 数组 ， 把 每 个 元 素 变 为 包含 两 个 元 素 的 数组 〈 元 
BAM CELT PAY EL) 。 

PREG SPLIT NO EMPTY 这 个 标志 位 告诉 preg_split 忽 略 空 字符 串 ， 不 把 它们 放 在 返回 数组 中 ， 也 不 
记 入 limit 的 统计 。 对 目标 字符 串 的 起 始 位 置 、 结 尾 位 置 ， 或 是 空 行 的 匹配 ， 都 会 带 来 空 字符 串 。 

下 面 来 改进 前 面 的 “Web 2.0” 的 tag 的 例子 C= 466) ， 如 果 $input 为 party，，fun"， 那 么 : 

$tags=preg_split('^s * ,\s * /x',$input); 

IFES tags B 3S ICR: ‘party’. TTR, Aæ fun. TTIP ee Ss APA REZ Tal a 

















如 果 设 置 了 PREG_SPLIT_ _NO_ EMPTY 标志 位 : 
$tags=preg_split('^s * ,\s * /x',$input,-1,PREG_SPLIT_NO_EMPTY),; 
结果 数组 只 包含 ‘party’* 和 ‘fun’。 
PREG_SPLIT_DELIM_CAPTURE 这 个 标志 位 在 结果 中 包含 匹配 的 文本 ， 以 及 进行 此 次 切 分 的 正则 表 
— 获 括号 匹配 的 文本 。 来 看 个 和 窗 单 的 例 于 ， 如 果 字 符 串 中 各 个 字段 是 以 'and: 和 “or 来 联系 的 ， 例 
I: 
DLSR camera and Nikon D200 or Canon EOS 30D 
yn FAN FA PREG SPLIT _DELIM CAPTURE, 
$parts=preg_split('/\st+(andjor)\s+/x', $input); 
得 到 的 $parts 是 : 
array (DLSR camera',Nikon D200','Canon EOS 30D') 
分 隔 符 中 的 匹配 内 容 被 去 掉 了 。 不 过 ， 如 果 使 用 了 PRE_SPLIT_DELIM_CAPTURE 标志 位 (并 且 用 -1 
作为 limit 参 数 的 占 位 符 ) : 
Sparts = preg split('/\s+ (andlor) \s+ /x', Sinput, -1 
PREG SPLIT DELIM CAPTURE) ; 


$parts 包 含 了 捕获 型 括号 匹配 的 分 隔 符 : 

array (DLSR camera','and', Nikon D200','or','Canon EOS 30D') 

此 时 ， 每 次 切 分 会 在 结 末 数组 中 增加 一 个 元 素 ， 因 为 正则 表达 式 中 只 有 一 组 捕获 型 括号 。 然 后 我 们 残 
能 够 过 历 $parts 中 的 元 素 ， 对 找到 的 and: 和 “or 进行 特殊 处 理 。 

请 注意 ， 如 采 使 用 了 非 捕获 型 括号 《如 采 pattern BBA ‘st (? : andlor) \s+/) , 
PREG_SPLIT_DELIM_CAPTURE 标志 位 不 会 产生 任何 效果 ， 因 为 它 只 对 捕获 型 括号 有 效 。 

来 看 男 一 个 例子 ， 第 466 页 分 析 股 市 行情 的 例子 : 

$tickers=preg_split('/[\s,]+/,Sinput); 

如 果 我 们 添加 捕获 型 括号 ， 以 及 PREG_SPLIT PTURE oo 

$tickers=preg_split C/ ([\s, ]+) /, $input, - DREL deh HES aww wydinuxicte,com a 


任何 字符 都 没有 被 抛弃 ， 它 只 是 切 分 之 后 保存 在 $tickers ”中 。 人 处 理 $tickers 数 组 时 ， 你 知道 编号 为 奇数 的 元 
AE! (is, +) | 匹配 的 。 这 可 能 很 有 用 ， 如 果 在 向 用 户 显 示 错 误 信息 时 ， 可 以 对 不 同 的 部 分 分 别 进行 处 
理 ， 然 后 将 它们 合并 起 来 ， 还 原 出 输入 的 字符 串 。 

还 有 一 点 需要 注意 ， 通 过 PREG _SPLIT _DELIM_CAPTURE 添 加 的 元 素 不 会 影响 切 分 上 限 。 只 有 在 这 种 
oo 结果 数组 中 的 元 素数 目 才 可 能 超过 上 限 〈 如 果 正 则 表达 式 中 的 捕获 型 括号 很 多 ， 则 元 素 就 要 更 

E 

结尾 的 未 参与 匹配 的 捕获 型 括号 不 会 影响 结果 数组 。 也 就 是 说 ， 如 果 一 组 捕获 型 括号 没有 参与 最 终 匹 
配 ( 参 见 450 页 )， 可 能 会 也 可 能 不 会 在 结果 数组 中 添加 空 字 符 串 。 如 果 编 写 更 靠 后 的 捕获 型 括号 参与 了 最 
终 匹 配 ， 就 会 增加 ， 和 否则 就 不 会 。 请 注意 ， 如 果 使 用 了 PREG_SPLIT NO_EMTPY ”标志 位 ， 结 果 会 有 变 
MW, KAAS AFB BE SOF 





preg_grep 


使 用 方法 

preg_grep(pattern,input[,flags]) 

BBL faj JP 

pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 。 

input 一 个 数组 ， 如 果 它 们 的 值 能 够 匹配 pattern， 则 其 值 会 复制 到 返回 的 数组 中 。 

flags 非 强 制 出 现 ， 此 标志 位 PREG_GREP_INVERT 或 者 是 0。 

返回 值 

一 个 数组 ， 包 含 input 中 能 够 由 pattern 匹 配 的 元 对 〈 如 果 使 用 了 PREG_GREP_INVERT 标 志 位 ， 则 包括 
不 能 匹配 的 元 素 ) 。 

讲解 

preg_grep 用 来 生成 input 数组 的 副本 ， 其 中 只 保留 了 value 能 够 匹配 〈 如 果 使 用 了 
PREG_GREP_INVERT 标 志 位 ， 则 不 能 匹配 ) pattern 的 元 素 。 此 value 对 应 的 key 会 保留 。 来 看 个 简单 的 例子 

preg_grep('^s/',$input); 

它 返 回 $input 数 组 中 的 ， 由 至 白 字符 构成 的 元 了 么 。 相 反 的 例子 是 : 

preg_grep('^s/',$input, PREG_GREP_INVERT); 

它 返 回 不 包含 空白 字符 的 元 素 。 请 注意 ， 第 二 个 例子 不 同 于 : 

preg_grep('/^\S+$/',$input); 

因为 后 者 不 包括 空 〈 长 度 为 0) 值 元 素 。 








preg_quote 


使 用 方法 

preg_quote(input [,delimiter]) 

参数 向 介 

input 和 希望 以 文字 方式 用 作 pattern 参 数 的 字符 串 〈 嗓 444) 。 

delimiter 非 强制 出 现 的 参数 ， 包 售 1 个 字符 的 字符 事 ， 表 示 和 硕 望 用 在 pattern 参 数 中 的 分 隅 符 。 

返回 仁 

preg_quote 返 回 一 个 字符 串 ， 它 是 input 的 副本 ， 其 中 的 正则 表达 式 元 字符 进行 了 转 义 。 如 果 指 定 了 分 
IT MORRA ERFA. 

讲解 

如 果 要 在 正则 表达 式 中 以 文字 方式 使 用 某 个 字符 串 ， 可 以 用 内 建 的 preg_guote 函 数 来 转 义 其 中 可 能 产生 
的 正则 表达 式 元 字符 。 如 采 指 定 了 创建 pattern 时 使 用 的 分 隔 符 ， 字 人 符 串 中 的 分 隔 符 也 会 被 转 义 。 

preg_quote 是 专门 应 对 特殊 情况 的 函数 ， 在 许多 情况 下 没有 用 ， 不 过 这 里 有 个 例子 : 
/* #rASMailSubject, #]/BfSMailMessage 对 应 主题 */ 


$pattern = '/*Subject: \st+ (Re: \s*) *' i FY FSU P UR ArT Wad Rein uxide. cont H 和 


如 果 $MailSubject 包 含 下 面 的 字符 串 

类 * Super Deal * 类 (Act Now!) 

最 后 $pattern 就 会 是 

/\Subject:\s+(Re:\s * ) * \ * \ * Super Deal\ * \ * \(Act Now\!\)/mi 

这 样 束 可 以 作为 preg 函 数 的 pattern 参 数 了 。 

如 来 指定 的 分 阳 符 是 ‘{ 之 类 对 称 的 字符 ， 那 么 对 应 的 字符 〈 例 如 他 ) 不 会 转 义 ， 所 以 请 务必 使 用 非 对 
称 的 分 隔 符 。 

同样 ， 空 日 字 和 从 和“# 也 不 会 转 义 ， 所 以 结果 可 能 不 适 于 用 x 修饰 符 。 

这 样 说 来 ， 在 把 任意 文本 转换 为 PHP 正则 表达 式 的 问题 上 ，preg_quote 并 不 是 完善 的 解决 办 法 。 它 只 
解决 了 “文本 到 正则 表达 式 * 的 问题 ， 而 没有 解决 “正则 表达 式 到 pattern 参 数 ”的 问题 ， 任 何 preg 函 数 都 需要 这 
一 步 。 下 一 市 给 出 了 解决 办 法 。 
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“TRA” HY) preg chi žr 


"Missing"Preg Functions 

PHPW 2: preg rai i OZ te tt SAS Ne, (eA RR IARI ETI MSA. MIT ERA 
开发 的 preg_match (454) 。 

我 及 现 ， 夯 一 闫 需要 提供 目 己 的 文 持 函数 的 情形 是 ， 正 则 表达 式 不 是 在 程序 内部 通过 pattern 参 数字 人 符 
串 提 供 的 ， 而 是 来 自 程序 外 部 《例如 ， 从 文件 谈 入 ， 或 者 是 在 web 表单 中 提交 ) 。 下 一 节 我 们 将 会 看 到 ， 
把 纯粹 的 正则 表达 式 字 符 串 转换 为 适合 paten 参数 使 用 的 形式 也 很 复杂 。 

同样 ， 在 使 用 这 些 正则 表达 式 之 前 ， 通 弟 都 必须 验证 他 们 的 语法 正确 性 。 我 同样 会 讲解 这 些 问题 。 

与 本 书 中 的 所 有 程序 代码 一 样 ， 下 一 页 的 函数 也 可 以 从 我 的 网 站 下 载 : http: //regex.info/. 





preg_regex_to_pattern 


如 条 正 则 表达 式 包 含 在 字符 串 中 《可 能 是 从 配置 文件 谈 入 ， 或 者 通过 Web KAE) ， 在 preg 函 数 中 
使 用 时 ， 首 先 必 须 在 两 端 加 上 分 隔 符 ， 才 能 生成 一 个 preg 函 数 能 用 的 pattern 参 数 。 

问题 所 在 

许多 时 候 ， 把 正则 表达 式 转 换 为 pattern 参 数 只 不 过 是 在 两 闫 加 上 和 斜 线 而 已 。 这 样 ， 正 则 表达 陈 字 符 
P [a-z]+ 束 成 了 4[a-z]+/， 可 以 用 作 preg 函 数 的 pattern 参 数 的 字符 串 。 

如 有 果 正 则 表达 式 中 包含 用 作 分 隔 符 的 字符 ， 和 情况 束 很 复杂 。 例 如 ， 正 则 表达 式 是 ‘http: / 

(M: J+) :， 仅 仅 在 两 端 添 加 反 冬 线 得 到 "Ahttp: / (AM: J+) ， 用 作 pattern 时 ， 结 果 会 是 “Unknown 
modifier/”。 

第 448 页 已 经 介绍 过 ， 这 个 错误 信息 是 因为 字符 串 中 的 前 两 个 糙 线 字符 被 当 作 分 隔 符 ， 之 后 的 部 分 
(在 这 里 就 是 第 3 个 斜 线 之 后 的 部 分 ) 被 当 作 修饰 符 序 列 了 。 

fA RZ IE 

A PA ATE BE RAR AY Hoy FY Pa a EE EE ETA SE PRCA HE oP a AP, OER EF 
造 pattern-modifier 字 符 串 ， 那 么 这 当然 是 推荐 的 办 法 了 。 上 所 以 我 在 第 444、449 和 450 页 〈 还 有 许多 ) 的 例子 
中 使 用 {...} 作 为 分 隔 付 。 

要 选 出 正则 表达 式 中 没有 出 现 的 分 隔 符 可 能 并 不 容易 《甚至 不 可 能 ) ， 因 为 字符 串 中 可 能 包含 所 有 分 
隔 符 ， 或 者 你 不 能 预先 知道 需要 处 理 的 文本 。 在 实际 应 用 正则 表达 式 时 这 需要 特别 关注 ， 所 以 最 简单 的 办 
法 是 使 用 第 二 种 : 选择 一 个 分 陋 符 ， 然 后 对 正则 表达 式 字 人 符 串 中 出 现 的 此 分 隔 符 进行 转 义 。 

问题 可 能 比 初 看 起 来 要 困难 许多 ， 因 为 你 必须 关注 某 些 重要 的 细节 。 例 如 ， 在 日 标 字 符 串 末尾 的 转 义 
必须 进行 特殊 处 理 ， 保 证 它 不 会 转 义 标 跟 在 后 面 的 分 隅 符 。 

下 面 的 函数 接收 正则 表达 式 字 符 串 ， 以 及 可 能 出 现 的 pattern-modifier 字符 串 ， 返 回 一 个 可 以 用 于 preg 
国 数 的 pattern 字 符 串 。 代 人 码 中 难看 的 反 斜 线 〈 正 则 表达 式 和 PHP 子 串 转 义 ) 或 许 是 你 见 过 的 最 复杂 的 表 
示 ; 这 段 代 码 并 不 容易 读 懂 〈 如 果 你 希望 补习 PHP 单 引号 字符 串 的 语意 ， 请 参考 第 444 页 . 
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/* 
* 输入 字符 串 形式 的 正则 表达 式 (或 许 是 pattern-modifier 学 符 串 )， 返 回 运 合 preg HR 
* 的 字符 事 ， 此 表达 式 包含 在 分 隔 符 之 内 ,后 面 可 能 还 跟 有 修饰 竺 
*/ 
function preg regex to pattern(Sraw regex, smodifiers = "") 
{ 
/类 
* 进行 转换 需要 在 Pattern Hi, pit (这 里 使 用 针线 ) 并 添加 修饰 符 
* ,必须 转 义 表达 式 内 部 的 分 隔 待 ， 表 达 式 结尾 的 转 义 必须 特殊 处 理 ， 否 则 和 它 会 转 义 最 后 的 分 晤 符 
* 不 能 讶 目 转 义 表 达 式 内 部 的 分 陪 符 ， 因 为 表达 式 内 部 可 能 包括 已 经 转 义 的 分 隔 符 
* 例如 ， 如 果 表 达 式 是 '\/'， 盲 目 转 义 得 到 '\\/'， 最 终结 果 是 '/\\//'， 这 显然 不 对 
* 应 当 把 表达 式 分 为 三 类 : CHAMPA, ARRON (FRR) 和 其 他 字符 。 
* 还 需要 注意 宁 待 串 结 尾 的 转 义 
žy 
if (! preg match('{\\\\(1:/1$)}', Sraw regex)) /* ERA'\'AEOS $'/' */ 
{ 
/* 不 存在 已 转 义 的 斜 线 ， 未 尾 也 没有 转 义 ， 直 接 转 义 其 中 的 余 线 即 可 */ 
Scooked = preg replace('!/!"', '\/', S$raw regex); 
} 


else 
{ 
/* 用 来 解析 Sraw regex tj pattern 
* 捕获 型 括号 内 的 两 个 部 分 需要 转 义 */ 
RE 


/* Sraw-regex #Spattern 的 每 次 成 功 匹 配 都 需要 调用 回调 函数 
* doRSmatches[(1]) 不 为 空 ， 返 回转 义 后 的 结 
* 否则 不 做 修改 直接 返回 */ 


$f = create function('$matches', ' /* 这 个 长 长 的 
if (empty (Smatches[1])) /* 单 引 号 
return $matches[0]; /* 字符 囊 就 是 
else /* On 


return "\\\\" . Smatches[1]; /* 代码 
‘i 
/* $pattern 应 用 到 S$raw_ regex, 得 到 $cooked */ 
Scooked = preg replace callback(Spattern，Sf，Sraw regex); 
/* 现在 可 以 在 $cooked Mig ome ys, Reb Lita, RELE */ 
return "/Scooked/Smodifiers"; 


} 


每 次 需要 的 时 候 重新 写 这 
WAERO 。 
有 兴趣 的 读者 不 妨 想 想 函 数 尾 部 preg_replace_callback 使 用 的 正则 表达 式 : 它 如 何 工 作 ， 以 及 回调 函数 
如 何 遍 历 整 个 pattern 字 符 串 ， ane eee (i 和 已 转 义 te —— 
中 Linux www.linuxidc.com [| | 
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对 未 知 的 Pattern 参 数 进行 语法 检查 


Syntax-Checking an Unknown Pattern Argument 

在 正则 表达 式 两 端 添加 分 隔 符 之 后 ， 我 们 确信 它 适 于 用 作 preg 函 数 的 pattern 参 数 了 ， 但 是 原来 的 正则 
表达 式 还 没有 经 过 语法 正确 性 检验 。 

举例 来 说 ， 如 采 原 始 的 正则 表达 式 是 “ 关 .txP， 因 为 示 些 人 和 希望 使 用 文件 群 组 功能 〈 嗓 4) 而 不 是 正则 表 
IXIA, HSApreg_regex_to_patterniX EI HY IZE * .txt/。 这 个 正则 表达 式 当 然 不 合法 ， 所 以 程序 会 用 出 警报 
CRAH T ERIRE) : 

Compilation failed:nothing to repeat at offset 0 

PHP 没 有 内 建 检测 pattern 参 数 及 其 正则 表达 式 的 语意 是 个 合法 的 函数 ， 不 过 我 为 谈 者 提供 了 一 个 。 

preg_pattern_error 会 对 pattern ”参数 进行 简 HER, 试图 使 用 此 正则 表达 式 一 一 在 = 中 有 一 行 调用 
preg_match。 枯 数 的 其 他 部 分 使 用 关注 PHP 的 管理 功能 处 理 preg_match 可 能 显示 的 错误 信息 

/ * 

* 如 果 输 入 的 pattern 或 其 中 的 正则 表达 式 参数 语法 不 正确 ， 输 出 错误 信息 

* 否则 (语法 正确 ) 返回 false。 

“y 

function preg pattern error ($pattern) 

{ 

/* 
* 要 判断 pattern ATA, AHEALAC. 

检测 和 捕获 此 错误 却 不 容易 ， 尤 其 是 市 望 获得 友好 提示 ， 而 且 不 修改 全 局 状态 
* 所 以 如 果 打 开 了 ‘track errors’, Wk#ASphp errormsg ， 之 后 恢复 它 的 状态 
* 如 果 没 有 打开 ， 则 打开 它 (因为 需要 用 到 )， 完 成 之 后 再 关闭 


3 


mf 
if (Sold track = ini get ("track errors")) 

Sold message = isset(Sphp errormsg) ? Sphp_errormsg : false; 
else 


ini set("track errors’, 1); 


/* 现在 确认 track errors 已 经 打开 */ 


unset (SPhP_errormsg) ; 
@ preg match(Spattern, ""); /*#a A pattern */ 
Sreturn value = isset($php errormsg) ? Sphp errormsg : false; 


/* 现在 捕获 了 需要 的 内 容 ， 恢 复 全 局 状态 */ 
if (Sold track) 

Sphp errormsg = isset($old_ message) ? Sold message : false; 
else 

ini set('track errors', 0); 


return $return. value; 


AY AS FH LE WU ek SUE AT Ta er 


Syntax-Checking an Unknown Regex 


iS PR BUE FAURE EKIA 来 检查 一 PAEA Apama 没有 模式 修饰 符 ) 的 语 te 印 
果 语 法 不 正确 ， 会 返回 对 应 的 错误 信息 ， 如 果 语 linux WwW 


/* 


* 如 果 表 达 式 语法 错误 ， 返 回 锚 误 1 
af 
{ 


-< 
-一 


ge; 


function preg regex error ($regex) 
} 


和 ， 如 果 语 法 正确 返回 false 


return preg pattern error (preg regex to pattern ($regex) ); 


0 O O O Linux{] |] www.linuxide.com [] L 
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Recursive Expressions 

preg SMRKE BOT MER ATTA, BERRE sek SRA EY 
HEH ULAR AT: 递归 的 表达 式 。 

序列 | C2 R | 表示 “在 此 处 递归 应 用 整个 表达 式 ”， 而 ”(〈? mum) | 表示 “在 此 处 递归 应 用 ”num 所 对 
应 编号 的 捕获 型 括号 中 的 序列 "。 命 名 捕获 的 括号 则 使 用 [ 〈? P>name) | 表示 法 。 

下 面 几 节 展 示 了 篆 见 的 递归 。 递 归 在 扩展 的 “tagged data’ fil F 02481) 中 占有 重要 地 位 。 


VU WC HRS HHS AY A SC AS 





Matching Text with Nested Parentheses 
FAS BEAN PIF ELK S ARCA, Pio: | C2: [AO ]++ 
LXE ASRIAD JI 


这 个 表达 式 匹 配 任意 多 个 双 多 选 分 支 结构 。 第 1 个 多 选 分 支 [[A O ]++| 匹配 除 括号 之 外 的 任何 字符 。 
因为 外 面 有 1'(? : ...) 大 |， 这 个 多 选 分 支 要 求 使 用 占有 优先 的 加 号 ， 避 免 < 无 休止 匹配 ”(e226) 。 

另 一 个 多 选 分 支 人 ( (? R) \) | 才 是 问题 的 关键 。 它 匹配 一 对 括号 ， 其 中 可 以 包括 任何 字符 (只 要 
括号 的 嵌 套 是 格式 正确 的 ) 。 这 里 的 “之 间 ” 的 部 分 是 整个 正则 表达 式 希望 匹配 的 内 容 ， 也 就 是 我 们 可 以 通 
过 1 (2 R) | 直接 递归 使 用 整个 正则 表达 式 的 原因 。 

这 个 表达 式 本 身 可 以 正常 工作 ， 但 如 果 要 添加 任何 字符 ， 请 务必 小 心 ， 因 为 调用 '(? R | 时 添加 的 
任何 字符 同样 会 递归 。 

如 果 使 用 这 个 正则 表达 式 来 校 验 一 个 括号 配对 不 正确 的 字符 串 ， 你 可 能 希望 在 两 端 加 上 「^...$ 来 确 
保 * 整 个 字符 串 ”。 这 是 不 对 的 ， 因 为 添加 的 行 锚 点 会 被 递归 应 用 到 整个 字符 串 之 中 ， 导 致 匹配 失败 。 

递归 引用 一 组 捕获 型 括号 

| (? R) | 结构 会 递归 引用 整个 正则 表达 式 ， 但 也 可 以 使 用 '(? num) | 结构 引用 到 其 中 的 子 集 。 
它 递归 引用 编号 为 numu 的 捕获 型 括号 内 的 子 表达 式 〈 注 4) o WEA T C? mum) | 来 思考 ，[ (? 0) | 就 
等 于 1 COR) |. 

我 们 可 以 使 用 这 种 部 分 递归 因 来 解决 前 面 那 一 节 中 出 现 的 问题 :在 添加 ALS) 之前， 我 们 用 一 个 捕获 
型 括号 把 正则 表达 式 的 主体 部 分 围 起 来 ， 然 后 在 以 前 使 用 '(? RD | 的 地 方 使 用 1 (2 1) | 。 添 加 捕获 型 
括号 是 为 了 让 1 (? 1) | 能 够 引用 ， 你 或 许 还 记得 ， 这 就 是 上 一 节 匹 配 撕 套 括号 的 表达 式 。 I^...$ | 加 在 
Te () ]44+1\ (C21) \) ) *) 5S: 

















EHR Ss Zh, PEER TANT E ET VA id HS : 
正则 表达 式 中 下 夯 线 的 部 分 是 第 1 组 捕获 型 括号 ， 所 以 每 次 遇 到 “”(? 1) | 都 会 重新 应 用 。 
下 和 面 PHP 代 码 中 的 正则 表达 式 会 报告 $text 中 的 括 写 能 否 配 对 : 
if (preg match("/* ( (?: MOLITE | s RI \) )* SA yn Stext)) 
echo "text is balanced\n"; 


else 
echo "text is unbalanced\n"; 


通过 命名 捕获 进行 递归 引用 
如 果 需 要 递归 调用 的 自 表达 式 处 于 命名 捕获 C138) 中 ， 就 可 以 使 用 [ (? P>name) | 进行 递归 引 
用 ， 而 不 是 之 前 的 '(? num) | 表示 法 。 使 用 这 个 表示 法 ， 我 们 的 例子 就 成 了 : 
[A(?P<stuff> (?:[AQ]++\((2P>stuff)\)) * )$. 
这 个 表达 式 可 能 看 起 来 很 复杂 ， 用 模式 修饰 符 柯 已 者 汝 囊 潮 乱 UX 回 :[ www.linuxidc.com [] [] 


Spattern = '{ 
# 正则 表达 式 从 此 处 开始 ... 


(P<Stutt> 
# 这 一 组 括号 内 的 所 有 内 容 都 被 命名 为 "stuff." 
Pra 

^() ] ++ E 除 括 号 之 外 的 任何 字符 


[ 
| 
YE CFR>statr) 4) # W465, VFZS"stuff,"ABAAEF 
)* 
) 
> 
# 正则 表达 式 结 
}x'; # 'x' 是 模式 修饰 符 
if (preg match (spattern, $text) ) 
echo "text is balanced\n"; 


else 
echo "text is unbalanced\n"; 
关于 占有 优先 量词 的 补充 





我 会 对 表达 式 中 的 占有 优先 量词 做 最 后 的 补充 。 如 果 外 部 的 (? : ...) 关 | 是 占有 优先 的 ， 内 部 就 不 
MEH I O e+) 。 为 了 阻止 这 个 表达 式 进 入 无 休止 匹配 ， 其 中 之 一 (或 者 是 两 者 ) 必须 是 占有 优先 
的 。 如 果 不 能 使 用 占有 优先 量词 和 国 化 分 组 (二 259) ， 则 需要 去 抒 所 有 的 量词 
2: [OTN GRY 

这 样 会 降低 效率 ， 但 是 至 少 不 会 进入 无 法 终止 的 匹配 。 要 提高 效率 ， 可 以 使 用 第 6 章 介 绍 的 “消除 循 
环 ” 的 技巧 ， 得 到 IIA OK (? :\(C(C?R) NIAC ]*) *,. 


AS fe EW Bsa ped FN 





No Backtracking Into Recursion 
preg E WIRA E VATE ie A TE Ze, E RE VA VOC A N E EL Hd ZF “SVE Ae 
INA C2259) 。 也 就 是 说 ， 递 归结 构 不 会 部 分 “交还 Cunmatch) ” 某 些 已 经 匹配 的 内 容 来 实现 全 局 匹配 
《而 是 导致 整个 匹配 失败 ) 。 
这 里 说 的 “部 分 ”是 很 重要 有 的， 因为 回 糊 时 ， 束 归 调 用 匹配 的 所 有 文本 可 以 作为 一 个 整体 来 交还 。 但 不 
容许 回溯 到 递归 调用 之 内 的 和 个 状态 。 








匹配 一 组 伦 套 的 括号 


Matching a Set of Nested Parentheses 

EMBASE ACS ROSS HIT, Ree oP AVL AC SINA E ee 
ELRRERS): NCC: MOHOR) Ije 

这 个 表达 云 的 组 成 部 分 与 乙 前 的 一 样 ， 但 是 顺序 安排 略 有 不 同 。 同 样 ， 如 条 你 希望 把 它 当 作 大 的 正则 
表达 式 的 一 部 分 ， 应 该 把 它 包 括 在 捕获 型 括号 中 ， 并 且 修 改 ，〈? R) | 来 递归 地 引用 对 应 的 自 表 达 式 ， 例 
i! (? 1) ， (必须 使 用 这 组 捕获 型 括号 对 应 的 编号 ) 。 


中 上 局 Dinux [|] www.linuxidce.com |] [] 


效率 


PHP Efficiency Issues 

PHP 的 preg 程 序 使 用 的 PCRP 是 经 过 优化 的 NFA 正 则 引擎 ， 所 以 第 4 到 6 章 介 绍 的 许多 技巧 都 可 以 直接 应 
用 。 其 中 包括 对 关键 部 分 进行 性 能 测试 ， 根 据 实际 数据 而 不 是 从 理论 分 析 来 比较 程序 的 快慢 。 第 6 章 给 出 了 
PHP 的 性 能 测试 的 例子 (全 234) 。 

如 果 程 序 对 时 间 要 求 很 严格 ， 请 记 住 两 点 ， 回 调 函 数 通 党 要 比 模式 修饰 符 e 更 快 ( 全 465) ， 在 太 长 的 
目标 字符 串 中 使 用 命名 捕获 必须 进行 更 多 的 数据 找 贝 。 

程序 运行 中 ， 过 到 正则 表达 式 会 编译 ， 但 是 PHP 有 一 个 容量 高 达 4 096 个 正则 表达 式 的 大 型 缓存 C 
242) ， 所 以 实际 上 ， 特 殊 的 pattern 字 人 符 串 只 需要 在 第 一 次 遇 到 的 时 候 编 译 。 

模式 修饰 符 $ 值 得 单独 介绍 : 它 会 “研究 (study) ”一 个 正则 表达 式 ， 试 图 进行 更 快 的 匹配 ( 它 与 Perl 的 
study 水 数 不 相 关 ，Perl 的 study 函 数 研 究 的 是 目标 字符 串 ， 而 不 是 正则 表达 式 人 二 359) 。 


模式 修饰 从 S: “研究 ” 





The S Pattern Modifier:"Study" 

使 用 模式 修饰 从 Ss 告诉 正则 引擎 ， 在 应 用 这 个 正则 表达 式 之 前 ， 兹 一 点 时 间 〈( 注 5〉 来 研究 ， 硕 望 这 些 
多 人 蓄 的 时 间 是 值得 的 。 但 是 ， 也 可 能 这 样 做 之 后 也 不 会 提升 速度 ， 但 是 菜 些 情况 下 ， 速 上 度 的 提升 是 与 数据 
规模 相关 的 。 

ee ee ee ae EER 6 章 所 说 的 开头 字符 组 识别 优化 (二 
247) 六 i 

HAERE RIETER AY CAS IFAS EURAN, PUARE TA LDE. 
只 有 把 同一 个 表达 式 应 用 到 大 规模 的 文本 ， 或 者 大 量 小 规模 文本 时 ， 才 需要 考虑 模式 修饰 侍 $。 

不 使 用 模式 修饰 竺 S， 标 准 优 化 

来 看 个 简单 的 例子 二 Awt) | 。 从 这 个 表达 式 中 我 们 可 以 看 出 ， 每 次 匹配 必须 以 字符 ‘<’ 开头 。 正 
则 引擎 能 够 (preg 父 件 必然 会 这 样 做 〉 利 用 这 一 点 ， 预 先 在 目标 字符 串 中 搜索 ‘=，*， 只 在 这 些 位 置 应 用 完整 
的 正则 表达 式 “〈 因 为 匹配 必须 以 “二 | 开头 ， 在 其 他 位 置 进行 匹配 尝试 是 徒劳 的 ) 。 

使 用 简单 预 搜 索 可 以 比 按 部 束 班 应 用 整个 正则 表达 式 快 得 多 ， 原 因 就 在 于 这 种 优化 。 尤 其 是 ， 需 要 搜 
索 的 字符 在 目标 字符 串 中 出 现 的 次 数 越 少 ， 优 化 越 明 显 。 同 样 ， 正 则 引擎 判断 第 一 个 字符 匹配 失败 的 工作 
量 越 大 ， 优 化 越 明显 。 这 种 优化 对 “ <i>|<A>|<b>|</b>, 比 对 「< Awt) | 更 明显 ， 因 为 在 进行 下 
一 轮 答 试 之 前 ， 正 则 引擎 会 答 试 搜索 4 个 不 同 的 多 选 分 文 ， 这 样 可 以 减少 许多 工作 量 。 

使 用 模式 修饰 符 S$ 进 一 步 优 化 

preg 引 苟 四 够 聪明 ， 能 把 这 种 优化 应 用 到 大 多 数 正则 表达 式 ， 它 们 的 匹配 必须 以 某 个 字符 开头 ， 束 像 
上 和 面 的 例子 一 样 。 不 过 ， 模 式 修 饰 从 S 告诉 引擎 ， 对 于 可 能 以 多 个 字符 开头 的 表达 式 ， 必 须 首 先 分 析 正 则 
表达 陈 来 局 用 这 种 优化 。 

这 里 有 几 个 正则 表达 式 的 例子 ， 其 中 有 一 些 在 本 章 中 已 经 出 现 过 ， 使 用 模式 修饰 符 $ 的 结果 如 下 : 























正则 表达 式 可 能 的 开头 字符 
<(\wt) 1&(Nw+) ; EE 

[Rr]e: R r 

(Jan |Feb | | Dec) \b ADEFJMNOS 

(Re: \s*)? SPAM R o 

Lo" 2 ks” \x09 \xOA \20C \xOD \x20; 
[&<">] & <"> 

Weiner kn | WE Xn 


合式 修饰 符 $S 没 有 用 处 的 场合 O O U U Linuxi O www.linuxidc.com [] L 


想 想 在 哪些 情况 下 模式 修饰 符 S 没 有 用 会 很 有 其 法 : 

。 开 头 有 锚 点 的 表达 式 〈 例 如 [A| 和 fb ) ， 或 者 一 个 错 点 紧 跟 全 局 性 多 选 分 支 。 这 限于 当前 的 实 
现 ，1\b| 的 限制 ， 理 论 上 在 未 来 的 某 些 版 本 中 可 以 去 掉 。 

。 能 够 匹配 空 字符 的 表达 式 ， 例 如 Sx | 。 

。 表 达 式 可 以 从 任何 字符 开始 匹配 (或 者 是 绝 大 多 数字 符 ) ,例如 5 (? : [CO) PHN CC?R) \) ) 
x | ， 请 参考 第 475 页 的 例子 。 这 个 表达 式 能 够 从 除 ) ;之 外 的 任何 字符 开始 匹配 ， 所 以 预先 检查 一 遍 几 
乎 不 会 去 掉 任何 开始 的 位 置 。 

。 开 头 字符 只 有 一 种 可 能 的 表达 式 ， 因 为 它们 已 经 进行 了 优化 。 

使 用 建议 

使 用 模式 修饰 符 S 之 后 ，preg 引擎 花 在 预 分 析 上 的 时 间 并 不 会 太 长 ， 所 以 如 果 你 希望 对 大 量 的 文本 应 
用 正则 表达 式 ， 无 妨 使 用 它 。 如 果 你 觉得 有 机 会 使 用 ， 潜 在 的 可 能 就 值得 尝试 。 








[| 日 日 Linux[| || www.linuxide.com [] [] 


扩展 示例 


Extended Examples 


用 这 两 个 例子 作为 本 章 的 结束 。 
用 PHP 解 析 CSV 


CSV Parsing with PHP 
这 里 有 一 个 用 PHP 解 机 CSV (逗号 分 隔 值 〉 的 程序 ， 原 来 的 例子 在 第 6 章 (271) 。 这 个 正则 表达 式 
使 用 了 占有 优先 量词 〈 叹 142) ， 而 不 是 固化 分 组 括号 ， 因 为 它们 看 起 来 更 清晰 。 首 先 ， 这 是 我 们 将 要 使 用 
的 正则 表达 式 : 
5CSV regex = "1 
G(r la) 
ces 
# 或 者 是 双 引 号 字段 ... 
" # 起 始 双 引号 


( [^"]*+ (?: we [^"]*+ ) 大 十 ) 
" # 结束 双 引 号 


. . . 非 双 引号 /过 号 文本 . . ， 
Ps | 


) 


}X 7 
然后 ， 我 们 用 它 来 解析 $CSV 文 件 中 的 一 行 : 
/* 应 用 正则 表达 式 ， 填 充 $Sall matches */ 


preg match alll(s$csv regex, $line, $all matches); 


/* SResult 用 来 保存 从 $all matches 收集 的 数据 */ 
SResult = array (); 


/* 遍历 每 个 成 功 的 匹配 ... */ 
for ($i = 0; $i < count($all matches[0]); $i++) 
{ 
/* 如 果 第 2 组 捕获 型 括号 匹配 了 ， 则 直接 使 用 */ 
if (strlen($all matches[2][$i]) > 0) 
array push($Result, Sall matches[2] [$i]); 
else 


{ 
/* 否则 为 引用 字段 ， 在 使 用 前 处 理 其 中 内 网 的 相连 双 引 号 */ 
array push($Result, preg replace('/""/', '"', $all matches[1] [$i])); 


} 


/* 现在 可 以 使 用 $Result 数组 */ 
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Checking Tagged Data for Proper Nesting 

这 个 例子 有 点 复杂 ， 它 用 到 了 许多 有 意思 的 知识 : 检查 XML (或 者 是 XHTML ， 或 者 任何 标记 的 数 
据 ) 是 否 包 仿 抓 并 的 或 者 错误 匹配 的 标签 。 我 的 办 法 是 检查 正确 匹配 的 tag， 非 tag 交 本 ， 以 及 自封 闭 
tag (self-closing tag， 例 如 入 bv 之 ， 用 XML 的 语言 来 说 束 是 一 个 “ 空 元 素 tag”) ， 布 望 我 能 找到 整个 字 和 从 
EP 





下 面 是 完整 的 正则 表达 式 : 


Ai eea] a kea eiea] leal ka Ey 
M E ee: i.e a 


能 够 匹配 的 字符 串 不 会 包含 错误 匹配 的 tag 〈 稍 后 会 给 出 若干 告 诚 ) 。 

这 可 能 相当 复杂 ， 但 是 如 果 分 解 为 各 个 部 分 ， 就 可 以 掌握 了 。 外 层 的 !^ C S) 包围 表达 式 的 主体 ， 
保证 在 返回 success 之 前 匹配 整个 目标 字符 串 。 主 体 包含 在 一 组 捕获 型 括号 之 内 ， 我 们 马上 会 看 到 ， 这 组 括 
号 容许 在 之 后 递归 引用 “主体 ”。 

正则 表达 式 的 主体 

正则 表达 式 的 主体 ， 就 是 这 三 个 多 选 分 支 〈 在 正则 表达 式 中 的 下 画 线 标注 ， 以 便 观 察 》， 它 们 包含 在 
Oa …) x+| 中 ， 容 许 任意 的 混合 都 能 匹配 。 这 三 个 多 选 分 支 匹配 的 分 别 是 ，tags、 非 tag 文 本 ， 以 及 
目 封 财 tag。 

因为 每 个 多 选 分 支 能 够 匹配 的 文本 之 间 是 没有 冲突 的 《也 就 是 说 ， 如 果 一 个 多 选 分 支 能 够 匹配 ， 另 两 
个 就 不 能 匹配 ) ， 我 知道 稍 后 的 回溯 永远 不 会 容许 另 一 个 多 选 分 支 匹配 同样 的 文本 。 利 用 这 一 点 ， 我 们 可 
以 使 用 占有 优先 的 星 号 ， 提 高 “容许 任何 混合 "括号 的 匹配 效率 。 它 告诉 正则 引擎 ， 不 要 徒劳 地 回溯 ， 如 果 
找 不 到 匹配 ， 就 很 快 出 结果 。 

因为 同样 的 原因 ， 三 个 多 选 分 支 可 以 以 任何 顺序 出 现 ， 我 把 最 可 能 匹配 的 多 选 分 支 放 在 最 前 面 〈= 
260) 。 

现在 逐个 看 这 些 多 选 分 支 ; 

第 2 个 多 选 分 支 非 tag 文 本 我 从 它 开始 讲 ， 因 为 <> 很 简单 。 这 个 多 选 分 支 匹配 非 tag 文本 。 
在 这 里 使 用 占有 优先 量词 可 能 有 点 多 此 一 举 一 外 面 的 〈? +) | 也 是 占有 优先 的 ， 但 是 为 了 安 
全 起 见 ， 我 希望 在 我 知道 不 会 带 来 负面 影响 的 地 方 使 用 占有 优先 量词 。 (通常 使 用 占有 优先 量词 是 为 了 提 
高 效率 ， 但 是 它 也 会 改变 匹配 的 语意 。 这 种 修改 可 能 有 帮助 ， 不 过 你 必须 清楚 它 的 后 果 呈 259)》。 

第 3 个 多 选 分 支 自封 闭 tag 第 3 个 多 选 分 支 <w>] +>) 匹配 自封 闭 tag， 例 如 <br/> 和 <img..…/ 
> 〈 自 封闭 tag 在 后 面 的 尖 括 号 之 前 有 反 斜 线 ) 。 与 之 前 一 样 ， 占 有 优先 量词 可 能 有 点 多 余 ， 但 它 肯 定 不 会 
市 来 负面 影响 。 





























l l < (\w++) [^>] *+ (2<!/)> 

第 1 个 多 选 分 文 ” 一 对 匹配 的 tags。 最 后 我 们 来 看 第 1 个 多 选 分 支 : 、 人 
D <A2> | 

这 个 子 表达 式 的 第 一 部 分 〈 以 下 画 线 标注 ) 匹配 开头 的 tag， 用 (w++) | ， 也 就 是 整个 正则 表达 式 
的 第 2 组 捕获 型 括号 (在 \w++| 中 使 用 占有 优先 量词 是 很 重要 的 ， 我 们 将 会 看 到 ) 匹配 tag 名 称 。 

PC? <LO | 是 任 定型 逆序 环视 CP 133) ， 确 保 没 有 匹配 和 糙 线 。 我 们 把 它 放 在 匹配 开头 tag 的 子 表 

达 式 中 的 “> | 之 前 ， 确 保 没有 匹配 自封 闭 tag， 例 如 入 hr > (我 们 已 经 看 到 ， 自 封闭 的 tag 由 第 3 个 多 选 分 
支 处 理 ) 。 

在 开头 tag 匹 配 之 后 ，，〈? 1) | 会 递归 地 应 用 到 第 一 组 捕获 型 括号 内 的 子 表达 式 。 它 是 之 前 提 到 
的 “主体 ”， 也 束 是 一 块 只 包含 对 称 tag 的 文本 。 它 匹配 之 后 应 该 匹配 对 应 的 结尾 tag (closing tag) ， 就 是 这 
个 多 选 分 支 的 第 一 部 分 匹配 的 〈tag 的 名 字 捕 获 到 第 二 组 捕获 型 括号 ) 。 <A>) 开头 的 1</ 确保 它 是 
一 个 结尾 tag， \2 > | 中 的 反 向 引用 确保 是 一 个 正确 的 结尾 tag。 

如 果 是 检查 HTML 或 者 其 他 tag 名 不 区 分 大 小 写 的 数据 ， 请 在 正则 表达 式 之 前 添加 (? i) | ， 或 者 使 
用 模式 修饰 符 i。 

完成 了 ! 
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关于 第 1 个 多 选 分 支 T< Awt) [A>]x+ (? <! /) > | 中 的 wH 的 占有 优先 ， 我 希望 多 说 几 
句 。 如 果 流 派 的 功能 不 够 强大 ， 不 能 使 用 占有 优先 量词 或 者 固化 分 组 C139 ， 我 会 在 这 个 多 选 分 支 的 
(w+) 之 后 加 上 \b: “< (wt) \b[A>]x (2 <!) >). 

\b 很 重要 ， 它 能 够 停止 (w+) 的 匹配 ， 例 如 ， “二 link>.… 去 在 >' 中 第 一 个 于 的 匹配 。 这 样 会 将 人 mk" 单 
独 留 在 捕获 型 括号 外 面 ， 导 致 后 面 的 反 向 引用 \2| 引用 的 tag 名 不 完整 。 

正常 情况 下 这 些 都 不 会 发 后， 因为 \w+ 是 匹配 优先 的 ， 会 匹配 整个 tag 名 。 不 过 ， 如 果 正 则 表达 式 应 用 
到 骸 套 结构 糟糕 的 文本 中 ， 它 应 该 匹配 失败 ， 搜 索 中 的 回溯 会 强迫 \w+| 匹配 不 完整 的 tag 名 ， 例 如 “<link 
>.. L>’. Nb) 能 解决 这 个 问题 。 

谢 天 谢 地 ，PHP 的 强大 的 preg 引 擎 支持 占有 优先 量词 ， 使 用 (w++) | 与 附加 \b| 的 意义 一 样 : 不 
容许 回 淹 切割 tag 名 ， 但 是 效率 更 高 。 

真实 世界 的 XML 
a oa 我 们 还 必须 考虑 XML 注释 、CDATA 部 分 、 处 理 指令 和 

添加 对 XML 注释 的 支持 是 很 容易 的 ， 只 需要 增加 第 4 个 多 选 分 支 ， 二 ! --.*? --> | ， 请 务必 使 用 
(2s) | 或 者 是 模式 修饰 符 S， 这 样 点 号 能 够 匹配 换行 符 。 

同样 ，CDATA ”部 分 的 格式 是 <! [CDATA[..]]>， 可 以 用 另 一 个 多 选 分 支 <! \ICDATA\L. *? J] 
>; KAH, ‘<? xml-version="1.0" ? > 之 类 的 处 理 指令 需要 再 添加 一 个 多 选 分 文 : |<\? .大 ?了 \? 
> 

entity 声明 的 形式 是 <! ENTITY...>， 可 以 用 |<! ENTITY\b.*? >, RAHE., XML 中 有 许多 类 似 
的 结构 ， 他 们 中 的 大 部 分 可 以 用 <! [A-Z].x? > | 取代 [<! ENTITY\b.*? >) 来 处 理 。 

虽然 还 有 些 问 题 ， 不 过 上 面 的 办 法 应 该 能 够 应 付 绝 大 多 数 XML。 下 面 是 完整 的 PHP 代 码 : 








exml regex = '{ 
a 
(Pe Sweet) TST" Co CFL) /NZ # 匹配 一 组 七 ad 
| Lt # 非 tag 字符 
| ae] Pe # 自封 闭 tag 
| <!--.*?--> # ye AR 
| @b\ [CDATA\ [ ES] > # cdata 数据 
| eee # 处 理 指令 
| <![A-Z].*?> # Entity 声明 之 类 
) $ 
3 


if (preg match($xml regex, $xml_ string) ) 
echo "block structure seems valid\n"; 
else 
echo "block structure seems invalid\n"; 
HTML 
fh LE Tae » 真实 世界 的 HTML 有 各 种 各 样 的 问 题 ， 这 样 的 检测 几乎 没有 实用 价值 ， 例 如 卫 立 元 素 
或 者 失 配 的 tag， 以 及 独立 出 现 的 ‘二 ?和 人 过’; 字符。 不 过 ， 即 使 古 正确 配对 的 HTML 也 有 些 特 殊 情 况 我 们 必须 
AbEH, JE REA <script>tag. 
HTML 注 释 规 范 与 XML 注释 一 样 : “二! x? -->>| ， 使 用 模式 修饰 符 s。 


<script> 部 分 是 重要 的 ， 因 为 它 可 能 包含 5< Fy BLA AH Hwe D fH 


任何 字符 。 我 们 可 以 这 样 处 理 : “<scriptb[A>] 大 >. 炎 ? </script>, 。 有 趣 的 是 ， 不 包含 禁止 出 现 
的 “和 :和 “> :的 字符 的 Script 序列 会 被 第 1 个 多 选 分 支 捕 获 ， 因 为 它 走 的 也 是 “匹配 的 一 组 tag” 的 套路 。 如 果 去 
Script 盖 不 包含 任何 其 他 字符 ， 第 1 个 多 选 分 文 会 失败 ， 这 些 文本 留 给 新 增 的 多 选 分 文 。 

这 里 是 HTML 版 本 的 PHP 程 序 : 


shtml regex = '{ 
at 
(Fs < (W TA (IRI CFL) <7\25 # 匹配 一 对 七 ad 
| Tei # 3E tag XK 
| [wie] Hs # 自封 闭 tag 
| <!--.*?--> # 注释 
| sexi pt \b [7S] *>. *2</seript> # script As 
} S4 
) 5 
ia 


if (preg match ($html regex, $html string)) 
echo "block structure seems valid\n"; 


else 
echo "block structure seems invalid\n"; 
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PHP 476 
(1) PHP 482 
(?i) (see: case-insensitive mode; mode 
modifier) 
(?i:--) (see mode-modified span) 
\(?-i), 446 
I?i) 446 
(?if then |else) (see conditional) 
(?m) (see: enhanced line-anchor mode; 
mode modifier) 
(?m:.-) (see mode-modified span) 
(?n) 408 
(?<name>..) (see named capture) 
(?'mame'..) (see named capture) 
(?P<.>) 451-452, 457 
(?P=name..) (see named capture) 
(?P<nmame>.-) (see named capture) 
(?R) 475 
PCRE 475 
PHP 475 
(?s) (see: dot-matches-all mode; mode 
modifier) 
(?s:.-) (see mode-modified span) 
(?x:--) (see mode-modified span) 
(?x) (see: comments and free-spacing 
mode; mode modifier) 
*+ (see possessive quantifiers) 
* (see star) 
+ (see plus) 
++ 483 
(see also possessive quantifiers) 
".*" (see double-quoted string example) 
.* 
introduced 55 
mechanics of matching 152 
optimization 246 
warning about 56 
.NET xvii, 405-438 
$+ 202 
after-match data 138 
benchmarking 237 
character-class subtraction 406 
code example 219 
flavor overview 92 
JIT 410 
line anchors 130 
literal-text mode 136 
MISL 410 
object model 417 
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.NET (cont'd) 
\p{--} 125 
regex approach 96-97 
regex flavor 407 
search and replace 414, 423-424 
URL example 204 
version covered 405 
word boundaries 134 
(see also VB.NET) 
=~ 308-309, 318 
introduced 38 
? (see question mark) 
?.-? 308 
?+ (see possessive quantifiers) 
@*.." 103 
@- 300, 302, 339 
@+ 300, 302, 314 
@ Perl interpolation 289 
[=.=] 128 


128 
112-113, 130 
(see also enhanced line-anchor mode) 
Java 370 
optimization 246 
“Subject: example 94, 151-152, 154, 
242-243, 245, 289 
Java 95 
.NET 96 
Perl 55 
Perl debugger 361 
PHP 97 
Python 97 
{min,max} 20, 141 
| (see alternation) 
$+ .NET 202 


\O 117-118 

$0 300 
Java 380 
PHP 459 

(?1) 
Java 402 
PCRE 476 
PHP 476 
(see also backreferences) 
Perl 41 

$1 137-138, 300, 303 
introduced 41 
Java 380 


$1 (cont'd) 
.NET 424 
in other languages 138 
pre-match copy 355 
(?1) PHP 482 
8859-1 encoding 29, 87, 106, 108, 123 


\a 115-116 
|@e escaping 77 
\A 112, 129-130 
(see also enhanced line-anchor mode) 
optimization 246 
after-match data 
Java 138 
.NET 138 
PHP 138 
after-match variables 
Perl 299 
pre-match copy 355 
Aho, Alfred 86, 180 
\p{all} 369 
\p{All} 125 
Perl 288 
$all_matches 455 
collated 455 
vs. matches 454 
stacked 456 
alternation 139-140 
and backtracking 231 
efficiency 222, 231 
greedy 174-175 
hand tweaking 261 
introduced 13-14 
order of 175-177, 223, 260, 482 
for correctness 28, 189, 197 
for efficiency 224 
and parentheses 13 


analogy 


backtracking 
bread crumbs 158-159 
stacking dishes 159 
ball rolling 262 
building a car 31 
charging batteries 179 
engines 143-147 
first come, first served 153 
gas additive 150 
learning regexes 
Pascal 36 
playing rummy 33 
regex as a language 5, 27 
regex as filename patterns 4 


1 0 Linuxi O www.linuxide.com O 0 


‘ analogy (contd) 
regex-directed match (see NFA) 
text-directed match (see DFA) 
transmission 148-149, 228 
transparencies (Perl's local) 298 
anchor (see also: word boundaries; 
enhanced line-anchor mode) 
caret 129 
dollar 129 
end-of-line optimization 246 
| exposing 256 
| line 87, 112-113, 150 
overview 129 
‘anchored(.) 362 
anchored ‘string’ 362 
anchoring bounds 485 
| Java 388 
‘AND class set operations 125-126 
ANSI escape sequences 79 
\p{Any} 125, 442 
Perl 288 
‘any character (see dot) 
appendReplacement method 480 
appendTail method 381 





SARGV 79 
array context (see list context) 
\p{Arrows} 124 


ASCII encoding 29, 106-107, 115, 123 
Asian character encoding 29 
‘AssemblyName 435 
\p{Assigned} 125-126 
Perl 288 
asterisk (see star) 
atomic grouping (see also possessive 
quantifiers) 
details 170-172 
for efficiency 171-172, 259-260, 268-270 
essence 170-171 
introduced 139 
atomic grouping example 198, 201, 213, 
271, 330, 340-341, 346 
AT&T Bell Labs 86 
author email xxiii 
auto-lookaheadification 410 
automatic possessification 251 
awk 
after-match data 138 
gensub 182 
history 87 
search and replace 100 
version covered 91 


word boundaries 134 


\b 65, 115-116, 134 


(see also: word boundaries; backspace) 
backspace and word boundary 44, 46 
Java 368 

Perl 286 

PHP 442 


6 111, 128, 290 
\B 134 


<B> -</B> 


\b\B 240 
165-167 
unrolling 270 


backreferences 118, 137 


DFA 150, 182 

introduced with egrep 20-22 
vs. octal escape 412-413 
remembering text 21 


backspace (see \b) 
‘backtracking 163-177 


and alternation 231 
avoiding 171-172 
computing count 227 
counting 222, 224 
detecting excessive 249-250 
efficiency 179-180 

essence 168-169 
exponential match 226 
global view 228-232 
introduction 157-163 

LIFO 159 

of lookaround 173-174 
neverending match 226 
non-match example 160-161 
POSIX NFA example 229 
saved states 159 

simple example 160 
simple lazy example 161 


balanced constructs 328-331, 340-341, 436, 


475-478, 481 


balancing regex issues 186 
Barwise,J. 85 

base character 107, 120 

Basic Regular Expressions 87-88 


\p{Basic_Latin} 124 


A\b\B 240 
benchmarking 232-239 


comparative 249 

compile caching 351 

Java 235-236 

for naughty variables 358 
‘NET 237, 410 

with neverending match 227 
Perl 360 

PHP 234-235 
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benchmarking (cont’d) 
pre-match copy 356 
Python 238-239 
Ruby 238 
Tel 239 
Berkeley 86 
Better-Late-Than-Never 236 
\<B>.</B> 165-167 
unrolling 270 
blocks 124, 288, 369, 402, 407 
BLTN 236 
Java 236 
BOL 362 
\p{Box_Drawing} 124 
Boyer-Moore 245, 247 
brace (see interval) 
bracket expressions 127 
BRE 87-88 
bread-crumb analogy 158-159 
<br/> 481 
‘bugs Java 365, 368-369, 387, 392, 399, 
403 
Bulletin of Math. Biophysics 85 
bump-along 
avoiding 210 
distrusting 215-218 
introduction 148-149 
optimization 255 
in overall processing 242 
Byington, Ryan xxiv 
byte matching 120, 442, 452-453, 456 


¢ 124 

\p{c} 122 
Java 369 

\c 120 
PHP 442 

C# (see also .NET) 
strings 103 

fe 131-132, 315 

C comments 
matching 272-276 
unrolling 275-276 

caching 242-245 
(see also regex objects) 
benchmarking 351 
compile 242-245 
Emacs 244 
integrated 243 
Java 478 
.NET 432 
object-oriented 244 


caching (cont'd) 


Perl 350-352 

PHP 478 
procedural 244 
Tel 244 
unconditional 350 


callback PHP 463, 465 
Capture 437 
CaptureCollection 438 
Capturing parentheses Java 377 
caranalogy 83-84 

caret anchor introduced 8 
carriage return 109, 370 

case title 110 

case folding 290, 292 


inhibiting 292 


case-insensitive mode 110 


egrep 14-15 

/i 47 
introduced 14-15 
Ruby 110 

with study 359 


cast 294-295 

categories (see Unicode, properties) 
\p{Ccc} 123 

CDATA 483 

Celsius (see temperature conversion 


example) 


\p{Cf} 123 
chaining (of methods) 389 


| character 


base 120 
(see also character class) 
combining 107, 120 
Inherited script 122 
vs. combining characters 107 
control 117 
initial character discrimination 245-248, 
252, 257-259, 332, 361 
machine-dependent codes 115 
multiple code points 108 
as Opposed to byte 29 
separating with split 322 
shorthands 115-116 


character class 118 


vs. alternation 13 

vs. dot 119 

elimination optimization 248 
introduced 9-10 

and lazy quantifiers 167 
mechanics of matching 149 
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character class (cont'd) 
negated 
must match character 11-12 
and newline 119 
Tel 112 
positive assertion 119 
of POSIX bracket expression 127 
range 9, 119 
as separate language 10 
set operations 125-127 
subtraction 406 
subtraction (set) 126 
subtraction (simple) 125 
character equivalent 128 
character-class subtraction .NET 406 
CharBuffer 373, 376, 387 
charnames pragma 290 
CharSequence 365, 373, 382, 397 
CheckNaughtiness 458 
\p{Cherokee} 122 
Chinese text processing 29 
chr 420 
Java 396 
Perl 323 
PHP 466 
CJKV Information Processing 29 
initial class discrimination 245-248, 252, 
257-259, 332, 361 
(see also character class) 
Click, Cliff xxiv 
client VM 236 
clock clicks 239 
\p{Close_Punctuation} 123 
closures 339 
\p{Cn} 123, 125-126, 369, 408 
Java 369 
\p{co} 123 
code example 
Java 81, 209, 217, 235, 371, 375, 
378-379, 381-384, 389 
-NET 219 
code point 
beyond U+rrrr 109 
introduced 107 
multiple 108 
unassigned in block 124 
coerce 294-295 
cold VM 236 
collated data 455 
collating sequences 128 











combining character 107, 120 


Inherited script 122 


|}commafying a number example 64-65 


introduced 59 
without lookbehind 67 


/COMMAND.COM F 
‘comments 99, 136 


Java 98 

matching of C comments 272-276 
matching of Pascal comments 265 
.NET 420 

XML 483 


comments and free-spacing mode 111 


Communications of the ACM 85 
comparison of engine types (see NFA) 
Compilation failed 474 


compile 


caching 242-245 
once (/o) 352-353 
on-demand 351 
regex 410-411 


compile method 472 


Compiled (.NET) 237, 408, 410, 420, 
427-428, 435 
Compilers — Principles, Techniques, and 
Tools 180 
CompileToAssembly 433, 435 
conditional 140-141 
with embedded regex 327, 335 
mimicking with lookaround 140 
.NET 409-410 


Config module 290, 299 
(conflicting metacharacters 44-46 


\p{Connector_Punctuation} 123 
Constable, Robert 85 
context (see also: list context; scalar con- 
text; match, context) 
contorting 
Perl 294 
forcing 310 
metacharacters 44-46 
regex use 189 
continuation lines 178, 186-187 
unrolling 270-271 
contorting an expression 294-295 


i\p{Control} 123 
|control characters 117 


Conway, Damian 339 

cooking for HTML 68, 414 

copy for$& (see pre-match copy) 
correctness vs. efficiency 223-224 
counting quantifier (see interval) 
www.cpan.org 358 
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CR 109, 370 
create_function 463, 465 
ICR/LF 370 
Cruise, Tom 51 
crummy analogy 158-159 
CSV parsing example 
Java 217, 401 
.NET 435 
Perl 213-219 
PHP 480 
unrolling 271 
VB.NET 219 
\p{Currency} 124 
currency 
€ 123-124, 367, 406 
\p{Currency} 124 
\p{Currency_Symbol} 123 
\p{Sc} 123 
Unicode block 123-124 
\p{Currency_Symbol} 123 
current location Java 374, 383, 398, 400 
currentTimeMillis() 236 
\p{Cyrillic} 122, 124 





\D 49, 120 
\d 49, 120 

Perl 288 

PHP 442 
Darth 197 
dash in character class 9 
\p{Dash_Punctuation} 123 
date_default_timezone_set 235 
DBIx::DWIW 258 
debugcolor 363 
debugging 361-363 

with embedded code 331-332 

regex objects 305-306 
| run-time 362 
\p{Decimal_Digit_Number} 123 
default regex 308 
define-key 101 
delegate 423-424 
delimited text 196-198 

standard formula 196, 273 
delimiter 

with shell 7 

with substitution 319 
‘delimiters PHP 445, 448 
description Java 365 
Deterministic Finite Automaton (see DFA) 
Devel::FindAmpersand 358 
Devel::SawAmpersand 4358 


| DFA 
acronym spelled out 156 
backreferences 150, 182 
boring 157 
compared with NFA 224, 227 
(see also NFA) 
efficiency 179 
implementation ease 183 
introduced 145, 155 
lazy evaluation 181 
longest-leftmost match 177-179 
testing for 146-147 
\p{Dingbats} 124 
directed alternation (see alternation, 
ordered) 
dish-stacking analogy 159 
dollar for Perl variable 37 
dollar anchor 129 
introduced 8 
dollar value example 24-25, 51-52, 
167-170, 175, 194-195 
DOS 7 
dot 119 
vs. character class 119 
introduced 11-12 
Java 370 
mechanics of matching 149 
Tel 113 
dot 370 
dot modes Java 111, 370 
.NET xvii, 405-438 
$+ 202 
after-match data 138 
benchmarking 237 
character-class subtraction 406 
code example 219 
flavor overview 92 
JIT 410 
line anchors 130 
literal-text mode 136 
MISL 410 
object model 417 
\p{--} 125 
regex approach 96-97 
regex flavor 407 
search and replace 414, 423-424 
URL example 204 
version covered 405 
word boundaries 134 
dot-matches-all mode 111-112 
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double-quoted string example 
allowing escaped quotes 196 
egrep 24 
final regex 264 
makudonarudo 165, 169, 228-232, 264 
sobering example 222-228 
unrolled 262, 268 

double-word finder example 81 
description 1 
egrep 22 
Emacs 101 
Java 81 

| Perl 35, 77-80 

-Dr 363 

dragon book 180 

IDWIW (DBIx) 258 

dynamic regex 327-331 
Sanitizing 337 

dynamic scope 295-299 
vs. lexical scope 299 


| 
\E 290 
(see also literal-text mode) 
Java 368, 395, 403 
Ne 79, 115-116 
fe 319-321 
‘earliest match wins 
EBCDIC 29 


148-149 


‘ECMAScript (.NET) 406, 408, 412-413, 421, 


| 427 
ed 85 
efficiency (see also optimization) 

and backtracking 179-180 

correctness 223-224 

| Perl 347-363 

Perl-specific issues 347- 363 

| PHP 478-480 

| regex objects 353-354 
unlimited lookbehind 134 

legrep 

] after-match data 138 

| backreference support 150 

| case-insensitive match 15 

| doubled-word solution 22 

| example use 14 

| flavor overview 92 

| flavor summary 32 

| history 86-87 

| introduced 6-8 

| metacharacter discussion 8-22 

| regex implementation 183 

| version covered 91 





egrep (cont'd) 
word boundaries 134 
electric engine analogy 
else (see conditional) 
Emacs 
after-match data 138 
control characters 117 
flavor overview 92 
re-search-forward 101 
search 100 
strings as regexes 101 
syntax class 128 
version covered 91 
word boundaries 134 
email of author xxiii 
email address example 70-73, 98 
Java 98 
.NET 99 
embedded code 
local 336 
my 338-339 
regex construct 327, 331-335 
sanitizing 337 


143-147 


embedded string check optimization 247, 


257 


Embodiments of Mind 85 


| 


Empty 433 
empty-element tag 481 
encapsulation (see regex objects) 
\p{Enclosing_Mark} 123 
encoding (see also Unicode) 
ASCII 29, 106-107, 115, 123 
introduced 29 
issues overview 105 
Latin-1 29, 87, 106, 108, 123 
UCS-2 107 
UCS-4 107 
UTF-16 107 
UTF-8 107, 442, 447 
END block 358 
end method 377 
end of line (see anchor, dollar) 


end of previous match (see \G) 


end of word (see word boundaries) 


end-of-string anchor optimization 246 


engine 
analogy 143-147 
hybrid 182, 239, 243 
implementation ease 183 
introduced 27 
testing type 146-147 

with neverending match 227 

type comparison 156-157, 180-183 
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English module 357 

English vs. regex 275 

enhanced line-anchor mode 112-113 
introduced 69 

ERE 87-88 

ereg suite 439 

errata xxiii 

Escape 432 

escape 

~ introduced 22 

| term defined 27 

essence 
atomic grouping 170-171 
greediness, laziness, and backtrack- 

ing 168-169 

NFA ees backtracking) 

eval 319 

example 





atomic grouping 198, 201, 213, 271, 


330, 340-341, 346 

commafying a number 64-65 

introduced 59 

without lookbehind 67 
CSV parsing 

Java 217, 401 

.NET 435 

Perl 213-219 

PHP 480 

unrolling 271 

VB.NET 219 


194-195 
double-quoted string 
allowing escaped quotes 196 
egrep 24 
final regex 264 


264 

sobering example 222-228 

unrolled 262, 268 
double-word finder 81 

description 1 

egrep 22 

Emacs 101 

Java 81 

Perl 35, 77-80 
email address 70-73, 98 


Tiere 190-192, 444 
five modifiers 316 
floating-point number 194 
form letter 50-51 





dollar value 24-25, 51-52, 167-170, 175, 


makudonarudo 165, 169, 228-232, 


example (cont'd) 


gr[ea]y 9 
hostname 22, 73, 76, 98-99, 137-138, 
203, 260, 267-268, 304, 306, 
450-451 
egrep 25 
Java 209 
plucking from text 71-73, 206-208 
in URL 74-77 
validating 203-205 
VB.NET 204 
HREF 452 
HTML 443-444, 459, 461, 464, 481, 484 
conversion from text 67-77 
cooking 68, 414 
encoding 414 
<HR> 194 
link 201-203 
optional 140 
paired tags 165 
parsing 132, 315, 321, 399 
tag 9, 18-19, 26, 200-201, 326, 357 
URL 74-77, 203, 206-208, 303, 
450-451 
URL-encoding 320 
HTTP response 467 
image tags 397 
IP 5, 187-189, 267-268, 311, 314, 
348-349 
Jeffs 61-64 
lookahead 61-64 
mail processing 53-59 
makudonarudo 165, 169, 228-232, 264 
pathname 190-192 
population 59 
possessive quantifiers 198, 201 
postal code 209-212 
regex overloading 341-345 
stock pricing 51-52, 167-168 
with alternation 175 
with atomic grouping 170 
with possessive quantifier 169 
temperature conversion 
Java 382 
.NET 425 
Perl 37, 283 
PHP 444 
text-to-HTML 67-77 
this|that 133, 139, 243, 245-247, 252, 
255, 260-261 
unrolling the loop 270-271, 477 
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example (cont'd) 
URL 74-77, 201-204, 208, 260, 303-304, 
306, 320, 450-451 
| egrep 25 
| Java 209 
| plucking 206-208 
username 73, 76, 98 
plucking from text 71-73 
in URL 74-77 
variable names 24 
XML 481-484 
ZIP code 209-212 
exception 
TllegalArgumentException 373, 380 
IllegalStateException 376-377 
IndexOutOfBoundsException 375-376, 
380 
IOException 81 
PatternSyntaxException 371, 373 
Explicit (Option) 415 
ExplicitCapture (.NET) 408, 420, 427 
exponential match 222-228, 330, 340 
= avoiding 264-266 
discovery 226-228 
explanation 226-228 
non-determinism 264 
short-circuiting 250 
solving with atomic grouping 268 
solving with possessive quantifiers 268 
expose literal text 255 
expression 
context 294-295 
contorting 294-295 
Extended Regular Expressions 87-88 


\£ 115-116 

introduced 44 
Fahrenheit (see temperature conversion 

example) 

atomic grouping 171-172 

forcing 241, 333, 335, 340-341 
FF 109, 370 
file globs 4 
file-ccheck example 2, 36 
filename 

patterns (globs) 4 

prepending to line 79 
filename example 190-192, 444 
Filo, David 397 
\p{Final_Punctuation} 123 


find method 375 
region 384 
FindAmpersand 358 
Fite, Liz 33 
five modifiers example 316 
|€lags method 394 
flavor 
Perl 286-293 
superficial chart 
general 92 
Java 367 
.NET 407 
PCRE 441 
Perl 285, 287 
PHP 441 
POSIX 88 
term defined 27 
flex version covered 91 
floating regex cache (see regex objects) 
floating ‘string’ 3062 
floating-point number example 194 
forcing failure 241, 333, 335, 340-341 
foreach vs. while vs. if 320 
form letter example 50-51 
\p{Format} 123 
freeflowing regex 277-281 
Friedl, Alfred 176 
Friedl, brothers 33 
Friedl, Fumie v, xxiv 
birthday 11-12 
Friedl, Jeffrey xxiii 
Friedl, Stephen xxiv, 458 
fully qualified name 295 
functions related to regexes in Perl 285 


AG 130-133, 212, 315-316, 362, 447 
(see also pos) 

| advanced example 132, 399 

.NET 408 

optimization 246 

Zg 61, 132, 307, 311-312, 315, 319 

| Csee also \G) 

introduced 51 

with regex object 354 

‘garbage collection Java benchmarking 

236 

gas engine analogy 143-147 

general categories (see Unicode, 

| properties) 

gensub 182 

George, Kit xxiv 

GetGroupNames 
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GetGroupNumbers 427-428 
gettimeofday 234 
Gill, Stuart xxiv 
global match (see /g) 
global vs. private Perl variables 295 
globs filename 4 
GNU awk 
after-match data 138 
gensub 182 
version covered 91 
word boundaries 134 
GNU egrep 
after-match data 138 
backreference support 150 
doubled-word solution 22 
-i bug 21 
regex implementation 183 
word boundaries 134 
GNU Emacs (see Emacs) 
GNU grep 
shortest-leftmost match 182 
version covered 91 
GNU sed 
after-match data 138 
version covered 91 
word boundaries 134 
Gosling, James 89 
GPOS 362 
Greant, Zak xxiv 
greatest weakness Perl 286 
gr[ea]y example 9 
greedy (see also lazy) 
alternation 174-175 
and backtracking 162-177 
deference to an overall match 153, 274 
essence 159, 168-169 
favors match 167-168 
first come, first served 153 
global vs. local 182 
introduced 151 
vs. lazy 169, 256-257 
localizing 225-226 
quantifier 141 
swapping 447 
too greedy 152 
green dragon 180 
grep Perl 324 
grep 
as an acronym 85 
flavor overview 92 
history 86 
regex flavor 86 
version covered 91 





grep (cont'd) 

-y option 86 
group method 377 
Group object (.NET) 418 

Capture 437 

creating 429 

Index 430 

Length 430 

Success 430 

ToString 430 

using 430 

Value 430 
‘GroupCollection 429, 438 
groupCount method 377 
grouping and capturing 20-22 
grouping-only parentheses (see non-cap- 

turing parentheses) 

GroupNameFromNumber 427-428 
GroupNumberFromName 427-428 
Groups Match object method 429 
\p{Gujarati} 122 
Gutierrez, David xxiv 
| 


\p{Han} 122 
hand tweaking 

alternation 261 

caveats 253 
\p{Hangul_Jamo} 124 
/hasAnchoringBounds method 388 
HASH(Ox80f60ac) 257 
hasTransparentBounds method 387 
Hazel, Philip xxiv, 91, 440 
\p{Hebrew} 122, 124 
height attribute Java example 397 
Hz 109 
117-118 





highlighting with ANSI escape sequences 
| 79 
\p {Hiragana} 
history 
‘\+' 87 
AT&T Bell Labs 86 
awk 87 
Berkeley 86 
ed trivia 86 
grep 86 
lex 87 
Perl 88-90, 308 
PHP 440 
of regexes 85-91 
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122 


history (cont'd) 
sed 87 
underscore in \w 89 
/x 90 
hitEnd method 389-392 
hostname example 22, 73, 76, 98-99, 


137-138, 203, 260, 267-268, 304, 306, 


450-451 
eprep 25 
Java 209 
plucking from text 71-73, 206-208 
in URL 74-77 
validating 203-205 
VB.NET 204 
SHostnameRegex 76, 137, 303, 351 
hot VM 236 
HREF example 452 
HTML 
cooking 68, 414 
matching tag 200-201 
HTMLexample 443-444, 459, 461, 464, 
| 481, 484 
conversion from text 67-77 
| cooking 68, 414 
encoding 414 
<HR> 194 
link 201-203 
optional 140 
paired tags 165 
parsing 132, 315, 321, 399 
tag 9, 18-19, 26, 200-201, 326, 357 
URL 74-77, 203, 206-208, 303, 450-451 
URL-encoding 320 
htmlspecialchars 461 
HTTP newlines 115 
HTTP response example 467 
HTTP URLexample 25, 74-77, 201-204, 
206-209, 260, 303-304, 306, 320, 
450-451 
bttp://regex.info/ xxiii, 7, 345, 471 
SHttpUr1l 303, 305, 345, 351 
hybrid regex engine 182, 239, 243 
hyphen in character class 
Hz 109 


(?i) (see: case-insensitive mode; mode 


modifier) 
fi 135 


(see also: case-insensitive mode; mode 


modifier) 
introduced 47 
with study 359 


-i as -y 86 
identifier matching 24 
lif (see conditional) 
if vs. while vs. foreach 320 
| (?if then | eise) (see conditional) 
| IgnoreCase (.NET) 96, 99, 408, 419, 42° 
IgnorePatternWhitespace (.NET) 99, 
| 408, 419, 427 
‘IllegalArgumentException 373, 380 
‘IllegalstateException 376-377 
image tags Java example 397 
image tags example 497 
implementation of engine 183 
implicit 362 
implicit anchor optimization 246 
Imports 413, 415, 434 
\p{InArrows} 124 
\p{InmBasic_Latin} 124 
\p{InBox_Drawing} 124 
\p{InCurrency} 124 
\p{Incyrillic} 124 
Index 

Group object method 430 

Match object method 429 
IndexOutOfBoundsException 375-376 

380 

\p{InDingbats} 124 
indispensable TiVo 3 
\p{InHangul_Jamo} 124 
\p{InHebrew} 124 
\p{Inherited} 122 
initial class discrimination 245-248, 252, 
257-259, 332, 361 
\p{Initial_Punctuation} 123 
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IP example 5, 187-189, 267-268, 311, 314, Java (cont’d) 


348-349 regex flavor 366-370 

Iraq 11 region 384-389 
Is vs. In 121, 124-125 search and replace 378-383 
| Java 369 x 110 

NET 407 split 395-396 

Perl 288 strings 102 
\p{IsCherokee} 122 transparent bounds 387 
\p{IsCommon} 122 Unicode 369 


\p{IsCyrillic} 122 
\p{IsGujarati} 122 
\p{IsHan} 122 

\p{IsHebrew} 122 


URL example 209 

version covered 365 

version history 365, 368-369, 392, 401 

VM 236 

word boundaries 134 
java properties 369 
\p{javaJavaIdentifierStart} 369 
java.lang.Character 369 
java.util.regex (see Java) 
java.util.Scanner 390 
Jeffs example 61-64 
JfriedisRegexLibrary 434-435 
JIT 

Java 236 

.NET 410 
JRE 236 
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ISO-8859-1 encoding 29, 87, 106, 108, 123 
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f 111 
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text processing 29 
“japhy” 246 
Java 95-96, 365-403 
= (Csee also java.util.regex) 
after-match data 138 
anchoring bounds 388 
benchmarking 235-236 
BLIN 236 
bugs 365, 368-369, 387, 392, 399, 403 
code example 81, 209, 217, 235, 371, 
375, 378-379, 381-384, 389 
CSV parsing example 401 
description 365 
dot modes 111, 370 
doubled-word example 81 
JIT 236 
line anchors 130, 370, 388 
line terminators 370 


\p{Katakana} 122, 124 
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Keisler, H. J. 85 

Kleene, Stephen 85 

The Kleene Symposium 85 
\kname (see named capture) 
Korean text processing 29 
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& 124 
\1 290 
\p{L&} 122-123, 125, 442 
Java 369 
Perl 288 
Ap{L}) 121-122, 133, 368, 395 
language (see also: .NET; C#; Java; 
MySQL; Perl; procmail; Python; Ruby; 


match modes 368 Tcl: VB.NET) 
match pointer 374, 383, 398, 400 character class 10, 13 
matching comments 272-276 identifiers 24 


method chaining 389 
method index 366 


\p{Latin} 122 
Latin-1 encoding 29, 87, 106, 108, 123 


Mustang 401 lazy 166-167 
object model 371-372 (see also greedy) 
\p{--} 125 essence 159, 168-169 
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| (cont'd) 
' favors match 167-168 
| vs. greedy 169, 256-257 
| optimization 248, 257 
' quantifier 141 
lazy evaluation 181, 355 
NE \E 290 
| inhibiting 292 
‘le 290 
‘lefirst 290 
leftmost match 177-179 
Length 
Group object method 430 
_ Match object method 429 
length-cognizance optimization 245, 247 
\p{Letter} 122, 288 
\p{Letter_Number} 123 
SLevelN 330, 343 
lex 86 
| $ 112 
| dot 111 
history 87 
and trailing context 182 
lexer 132, 389, 399 
building 315 
lexical scope 299 
LIFO backtracking 159 
‘limit 
backtracking 239 
| -preg_split 466-467 
| recursion 249-250 
line (see also string) 
anchor optimization 246 
| Vs. string 55 
line anchor 112-113 
mechanics of matching 150 
variety of implementations 87 
line anchors 
| Java 130, 370, 388 
NET 130 
Perl 130 
| PHP 130 
line feed 109, 370 
LINE SEPARATOR 109, 123, 370 
line terminators 109-111, 129-130, 370 
with $ and * 112 
Java 370 
\p{Line_Separator} 123 
| matching 201 
| (see also URL examples) 
| Java 209 





link, matching (cont'd) 
VB.NET 204 
list context 294, 310-311 
forcing 310 
literal string initial string discrimination 
245-248, 252, 257-259, 332, 361 


exposing 255 
introduced 5 
mechanics of matching 149 
pre-check optimization 245-248, 252, 
257-259, 332, 361 
literal-text mode 113, 136, 290 
inhibiting 292 
NET 136 
\p{Ll} 123, 406 
\p{Lm} 123, 406 
\p{Lo} 123, 406 
local 296, 341 
in embedded code 336 
vs. my 297 
locale 127-125 
overview 87 
\w 120-121 
localizing 296-297 
localtime 294, 319, 351 
lock up (see neverending match) 
locking in regex literal 452 
“A logical calculus of the ideas imminent in 
nervous activity” 85 
longest match finding 334-335 
longest-leftmost match 148, 177-179 
lookahead 133 
(see also lookaround) 
auto 410 
introduced 60 
mimic atomic grouping 174 
mimic optimizations 258-259 
negated 
<B>.</B> 167 
positive vs. negative 66 
lookahead example 61-64 
lookaround 
backtracking 173-174 
conditional 140-141 
and DFAs 182 
doesn’t consume text 60 
introduced 59 
mimicking class set operations 126 
| mimicking word boundaries 134 
Perl 288 
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lookbehind 133 
(see also lookaround) 


Java 368 

.NET 408 

Perl 288 

PHP 134, 443 

positive vs. negative 66 
unlimited 408 


lookingAt method 376 

loose matching (see case-insensitive 
mode) 

Lord, Tom 183 

\p{Lowercase_Letter} 123 

LS 109, 123, 370 

\p{Lt} 123, 406 

\p{Lu} 123, 406 

Lunde, Ken xxiv, 29 


\p{m} 120, 122 
m/--/ introduced 38 
(?m) (see: enhanced line-anchor mode: 
mode modifier) 
/m 135 
(see also: enhanced line-anchor mode; 
mode modifier) 
machine-dependent character codes 115 
Macos 115 
mail processing example 53-59 


makudonarudo example 165, 169, 228-232, 


264 


(see also: DFA; NFA) 
actions 95 
context 294-295, 309 
list 294, 310-311 
scalar 294, 310, 312-316 
DFA vs. NFA 224 
efficiency 179 
example with backtracking 160 
example without backtracking 160 
lazy example 161 
leftmost-longest 335 
longest 334-335 
m/.-/ 
introduced 38 
mechanics (see also: greedy; lazy) 
-* 152 
anchors 150 
capturing parentheses 149 
character classes and dot 149 
consequences 156 
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match, mechanics (cont'd) 
greedy introduced 151 
literal text 149 
modes 110-113 
Java 368 
negating 309 
neverending 222-228, 330, 340 
avoiding 264-266 
discovery 226-228 
explanation 226-228 
non-determinism 264 
short-circuiting 250 
solving with atomic grouping 268 
solving with possessive quanti- 
fiers 268 
NFA vs. DFA 156-157, 180-183 
of nothing 454 
position (see pos) 
POSIX 
Perl 335 
shortest-leftmost 182 
side effects 317 
intertwined 43 
Perl 40 
speed 181 
in a string 27 
tag-team 132 
viewing mechanics 331-332 
Match Empty 433 
match modes Java 368 
‘Match (.NET) Success 96 
Match object (.NET) 417 
Capture 437 
creating 421, 429 
Groups 429 
Index 429 
Length 429 
NextMatch 429 
Result 429 
Success 427 
Synchronized 430 
ToString 427 
using 427 
Value 427 
match pointer Java 374, 383, 398, 400 
Match (Regex object method) 421 
“match rejected by optimizer” 363 
‘match results Java 376 
MatchCollection 422 
Matcher 
appendReplacement 380 
appendTail 381 
end 377 


Matcher (cont'd) 
find 375 
group 37/7 
groupCount 377 
hasAnchoringBounds 488 
hasTransparentBounds 387 
hitEnd 389-392 
lookingAt 376 
matches 376 
pattern 393 
quoteReplacement 379 
region 384-389 
region 386 
regionEnd 386 
regionStart 386 
replaceAll 378 
replaceFirst 379 
replacement argument 380 
requireEnd 389-392 
reset 392-395 
start 377 
text 394 
toMatchResult 377 
toString 393 
useAnchoringBounds 388 
usePattern 393, 399 
| useTransparentBounds 487 
‘Matcher object 373 
| reusing 392-393 
‘Smatches 450 
ws. Sall_matches 454 
matches 
unexpected 194-195 
viewing all 332 
matches method 376, 395 
‘Matches (Regex object method) 422 
MatchEvaluator 423-424 
matching 
delimited text 196-198 
HTML tag 200 
longest-leftmost 177-179 
matching comments Java 272-276 
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McCulloch, Warren 85 
\p{Me} 123 
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‘MatchObject object (.NET) creating 422 


metacharacter 
conflicting 44-46 
differing contexts 10 
first-class 87, 92 
introduced 5 
vs. metasequence 27 
metasequence defined 27 
‘method chaining 389 
Java 389 
method index Java 366 
mimic 
$’ 357 
$~ 357 
$& 302, 357 
atomic grouping 174 
class set Operations 126 
conditional with lookaround 140 


initial-character discrimination optimiza- 


tion 258-259 

named capture 344-345 

POSIX matching 335 
| possessive quantifiers 343-344 
| variable interpolation 321 

word boundaries 66, 134, 341-342 
minlen length 362 
‘minus in character class 9 
MISL .NET 410 
“missing” functions PHP 471 
\p{Mn} 123 
mode modifier 110, 135-136 
mode-modified span 110, 135-136, 367, 
| 392, 407, 446 
modes introduced with egrep 14-15 
'\p{Modifier_Letter} 123 
‘modifiers 372 
| (see also match, modes) 
| combining 69 
| example with five 316 
| /g 51 
| fi 47 
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notation 99 
| /osmosis 293 
Perl 292-293 
Perl core 292-293 
with regex object 304-305 
unknown 448 
\p{Modifier Symbol} 123 
Morse, lan xxiv 
motto Perl 348 
-Mre=debug (see use re ‘debug’) 
multi-character quotes 165-166 
Multiline (.NET) 408, 419-420, 427 


“locking in” 304-305 
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|multiple-byte character encoding 29 
‘MungeRegexLiteral 342-344, 346 
Mustang Java 401 
my 
binding 339 
in embedded code 338-339 
VS. local 297 
MySQL 
after-match data 138 
DBIx::DWIW 258 
version covered 91 
word boundaries 134 


\p{N} 122, 395 
\n 49, 115-116 
introduced 44 
machine-dependency 115 
$^N 300-301, 344-346 
(?n) 408 
named capture 138 
mimicking 344-345 
numeric names 451 
PHP 450-452, 457, 476-477 
with unnamed capture 409 
naughty variables 356 
OK for debugging 331 
\p{Nd} 123, 368, 406 
negated class 
introduced 10-11 
and lazy quantifiers 167 






Tel 112 
negative lookahead (see lookahead, 
negative) 
negative lookbehind (see lookbehind, 
negative) 


NEL 109, 370, 407 
nervous system 8&5 
nested constructs 
.NET 436 
Perl 328-331, 340-341 
PHP 475-478, 481 
SNestedStuffRegex 339, 346 
.NET xvii, 405-438 
$+ 202 
after-match data 138 
benchmarking 237 
character-class subtraction 406 
code example 219 
flavor overview 92 
JIT 410 
line anchors 130 
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.NET (cont’d) 
literal-text mode 136 
MISL 410 
object model 417 
\p{--} 125 
regex approach 96-97 
regex flavor 407 
search and replace 414, 423-424 
URL example 204 
version covered 405 
word boundaries 134 
(see also VB.NET) 
neurophysiologists early regex study 85 
neverending match 222-228, 330, 340 
avoiding 264-266 
discovery 226-228 
explanation 226-228 
non-determinism 264 
short-circuiting 250 
solving with atomic grouping 268 
solving with possessive quantifiers 268 
New Regex 96, 99, 416, 421 
newline and HTTP 115 
NEXT LINE 109, 370, 407 
NextMatch (Match object method) 429 
NFA 
acronym spelled out 156 
and alternation 174-175 
compared with DFA 156-157, 180-183 
control benefits 155 
efficiency 179 
essence (see backtracking) 
first introduced 145 
freeflowing regex 277-281 
and greediness 162 
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introduction 153 
nondeterminism 265 
checkpoint 264-265 
POSIX efficiency 179 
testing for 146-147 
theory 180 
\p{N1} 125 
\N{LATIN SMALL LETTER SHARP S} 290 
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non-capturing parentheses 45, 137-138 
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NFA) 
None (.NET) 421, 427 
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nonillion 226 
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453-454, 469 
nonregular sets 180 
\p{Non_Spacing Mark} 123 
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boundaries) 
“normal” 263-266 
NUL 117 
with dot 119 
NULL 454 
\p{Number} 122 


fo 352-353 
with regex object 354 
Obfuscated Perl Contest 320 
object model 
Java 371-372 
.NET 416-417 
Object Oriented Perl 339 
object-oriented handling 95-97 
compile caching 244 
octalescape 116, 118 
vs. backreference 412-413 
Perl 286 
offset preg_match 453 
on-demand recompilation 351 
oneself example 332, 334 
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operators Perl list 285 
optimization 240-252 
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BLIN 236 
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JIT 236, 410 
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optimization (cont'd) 
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needless parentheses 248 
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ter 245-248, 252, 257-259, 332, 
361 
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discussed 247-248 
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state suppression 250-251 
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super-linear short-circuiting 250 
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-0 36 
-c 361 
-Dr 363 
-e 36, 53, 361 
-i 53 
-M 361 
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dot 119 
empty alternatives 140 
Extended Regular Expressions 87-88 
superficial flavor chart 88 
locale 127 
overview 87 

longest-leftmost rule 177-179, 335 
POSIX NFA 

backtracking example 229 

testing for 146-147 
possessive quantifier 477, 483 
possessive quantifiers 142, 172-173, 477, 

483 

(see also atomic grouping) 
| automatic 251 
_ for efficiency 259-260, 268-270, 482 
| mimicking 343-344 
| Optimization 250-251 
| possessive quantifiers example 198, 201 
postal code example 209-212 
\p{Other} 122 
\p{Other_Letter} 123 
\p{Other_Number} 123 
\p{Other_Punctuation} 123 
\p{Other_Symbol} 123 
& 124 
\Pp{P} 122 
\p{Paragraph_Separator} 123 
\p{Pc} 123, 406 


\p{Pd} 123 
\p{Pe} 123 
\p{Pf} 123 

Java 369 
A\p{Pi} 124 
| Java 369 
\pt{Po} 124 
\p{Private Use} 123 
\p{Ps} 123 
\p{Punctuation} 122 
pragma 

















charnames 290 
(see also \N{ name} ) 

overload 342 

re 361, 363 

strict 295, 336, 345 

warnings 326, 363 
pre-check of required character 245-248, 

252, 257-259, 361 

mimic 258-259 

viewing 332 
preg function interface 443-448 


preg suite 439 

“missing” functions 471 
preg_grep 469-470 
PREG_GREP_INVERT 470 
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preg_regex_to_pattern 472-474 
preg_replace 458-464 
preg _replace_callback 463-465 
PREG_SET_ORDER 456 
preg_split 465-469 
PREG_SPLIT_DELIM_CAPTURE 468-469 

split limit 469 
PREG_SPLIT_NO_EMPTY 468 
PREG_SPLIT_OFFSET_CAPTURE 468 
pre-match copy 355 
prepending filename to line 79 
price rounding example 51-52, 167-168 

with alternation 175 

with atomic grouping 170 

with possessive quantifier 169 
Principles of Compiler Design 180 
printf 40 
private vs. global Perl variables 295 
\p{Private_Use} 123 
procedural handling 95-97 

compile caching 244 
processing instructions 483 
procmail 94 

version covered 91 
Programming Perl 283, 286, 339 
promote 294-295 
properties 121-123, 125-126, 288, 368-369, 

442 

PS 109, 123, 370 
\p{s} 122 
\p{Ps} 123 
\p{Se} 123-124 
\p{Separator} 122 


\p{sSk} 125 
\p{Sm} 123 
\p{So} 123 


\p{Space_Separator} 123 


\p{Spacing_Combining Mark} 123 


\p{Symbol} 122 


\p{Tamil} 124 


\p{Thai} 122 
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\p{Tibetan} 124 
\p{Titlecase_Letter} 123 
publication 
Bulletin of Math. Biophysics 85 
CJKV Information Processing 29 
Communications of the ACM 85 
Compilers— Principles, Techniques, and 
Tools 180 
Embodiments of Mind 85 
The Kleene Symposium 85 
“A logical calculus of the ideas imminent 
in nervous activity” 85 
Object Oriented Peri 339 
Principles of Compiler Design 180 
Programming Perl 283, 286, 339 
Regular Expression Search Algorithm 85 
“The Role of Finite Automata in the 
Development of Modern Comput- 
ing Theory” 85 
\p{Unassigned} 123, 125 
Perl 288 
\p{Punctuation} 122 
\p{Uppercase_Letter} 123 
Python 
after-match data 138 
benchmarking 238-239 
line anchors 130 
mode modifiers 135 
regex approach 97 
= strings 104 
| version covered 91 
word boundaries 134 
\Z 112 
\p{Z} 121-122, 368, 407 
\pzZ PHP 442 
\p{Z1} 123 
\p{Zp} 123 
\p{Zs} 123 


\Q Java 368, 395, 403 
Qantas 11 
\O.-\E 290 
inhibiting 292 
ged 85 
qr/./ (see also regex objects) 
introduced 76 
quantifier (see also: plus; star; question 
mark; interval; lazy; greedy; posses- 
sive quantifiers) 
and backtracking 162 
factor out 255 
grouping for 18 


quantifier (cont’d) 
multiple levels 266 
optimization 247-248 
and parentheses 18 
possessive 477, 483 
possessive quantifiers 142, 172-173, 477, 
483 


for efficiency 259-260, 268-270, 482 
automatic 
optimization 
mimicking 
question mark 
as \? 141 
backtracking 160 
greedy 141, 447 
introduced 17-18 
lazy 141 
possessive 142 
smallest preceding subexpression 29 
question mark 
as \? 141 
backtracking 160 
greedy 141, 447 
introduced 17-18 
lazy 141 
possessive 142 
quote method 136, 395 
quoted string (see double-quoted string 
example) 
quoteReplacement method 479 
quotes multi-character 165-166 


r"-" 104 
\r 49, 115-116 
machine-dependency 115 
(?R) 475 
PCRE 475 
PHP 475 
$^R 302, 327 
re 361, 363 


re pragma 361, 363 


reality check 226-228 
recursive matching (see also dynamic 
regex) 
Java 402 
.NET 436 
PCRE 475-478 
PHP 475-478, 481-484 
red dragon 180 


Reflection 435 
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regex 
balancing needs 186 
cache 242-245, 350-352, 432, 478 
compile 179-180, 350 
default 308 
delimiters 291-292 
DFA (see DFA) 
encapsulation (see regex objects) 
engine analogy 143-147 
vs. English 275 
error checking 474 
frame of mind 6 
freeflowing design 277-281 
history 85-91 
library 76, 208 
longest-leftmost match 177-179 
shortest-leftmost 182 
mechanics 241-242 
NFA (see NFA) 
nomenclature 27 
operands 288-292 
overloading 291, 328 
inhibiting 292 
| problems 344 
| subexpression 
| defined 29 
subroutines 476 
regex approach .NET 96-97 
‘regex delimiters PHP 445, 448 
regex flavor 
Java 366-370 
.NET 407 
regex literal 288-292, 307 
inhibiting processing 292 
locking in 352 
parsing of 292 
processing 350 
regex objects 354 
Regex (.NET) 
| CompileToAssembly 433, 435 
creating 
options 419-421 
Escape 432 
GetGroupNames 427-428 
GetGroupNumbers 427-428 
GroupNameFromNumber 427-428 
GroupNumberFromName 427-428 
IsMatch 413, 421, 431 
Match 96, 414, 416, 421, 431 
Matches 422, 431 
object 
creating 96, 416, 419-421 
exceptions 419 


Regex (.NET), object (cont'd) 
using 96, 421 
Options 427 
Replace 414-415, 423-424, 431 
RightToLeft 427 
Split 425-426, 431 
ToString 427 
Unescape 433 
regex objects 303-306 
(see also qr/.-/) 
efficiency 353-354 
/g 354 
| match modes 304-305 
| fo 354 
| in regex literal 354 
viewing 305-306 
regex operators Perl 285 
regex overloading 292 
(see also use overload) 
regex overloading example 341-345 
bttp://regex.info/ xxiv, 7, 345, 358, 451 
RegexCompilationInfo 445 
regex-directed matching 153 
(see also NFA) 
and backreferences 303 
and greediness 162 
Regex.Escape 136 
RegexOptions 
Compiled 237, 408, 410, 420, 427-428, 
435 
ECMAScript 406, 408, 412-413, 421, 427 
ExplicitCapture 408, 420, 427 
IgnoreCase 96, 99, 408, 419, 427 
IgnorePatternWhitespace 99, 408, 
| 419, 427 
| Multiline 408, 419-420, 427 
| None 421, 427 
| ‘RightToLeft 408, 411-412, 420, 
426-427, 429-430 
Singleline 408, 420, 427 
region 
additional example 398 
anchoring bounds 388 
hitEnd 390 
Java 384-389 
methods that reset 385 
requireEnd 390 
resetting 392-393 
setting one edge 386 
transparent bounds 387 
region method 386 


regionEnd method 386 


regionStart method 
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\reg_match 454 
regsub 100 
regular expression origin of term 85 
Regular Expression Search Algorithm 85 
regular sets 85 
Reinhold, Mark xxiv 
removing whitespace 199-200 
Replace (Regex object method) 423-424 
replaceAll method 478 
replaceFirst method 379 
replacement argument 460 
array order 462, 464 
Java 380 
PHP 459 
reproductive organs 5 
required character pre-check 245-248, 252, 
requireEnd method 389-392 
re-search-forward 100-101 
reset method 385, 392-393 
Result (Match object method) 429 
RightToLeft (Regex property) 427-428 
RightToLeft (.NET) 408, 411-412, 420, 
426-427, 429-430 
“The Role of Finite Automata in the Devel- 
opment of Modern Computing The- 
ory” 85 
Ruby 
| gand* 112 
after-match data 138 
benchmarking 238 
line anchors 130 
mode modifiers 135 
version covered 91 
word boundaries 134 
rule 
earliest match wins 148-149 
standard quantifiers are greedy 151-153 
rx 185 


\p{S} 122 

s/-/-/ 50, 318-321 

\s 49,121 
Emacs 128 
introduction 47 
Perl 288 
PHP 442 

(?s) (see: dot-matches-all mode; mode 

modifier) 
I\s 49, 56, 121 
fa 135 


/s (cont'd) 
(see also: dot-matches-all mode; mode 
modifier) 
saved states (see backtracking, saved 
states) 
\SawAmpersand 358 
say what you mean 195, 274 
SBOL 362 
\p{Se} 123-124 
scalar context 294, 310, 312-316 
forcing 310 
‘scanner 132, 389, 399 
schaffkopf 33 
scope lexical vs. dynamic 299 
scripts 122, 288, 442 
search and replace xvii 
awk 100 
Java 378-383 
,NET 414, 423-424 
Perl 318-321 
PHP 458-465 
Tel 100 
=- Csee also substitution) 
sed 
after-match data 138 
dot 111 
history 87 
version covered 91 
word boundaries 134 
正规 表现 注 简单 万 上 ! 5 
self-closing tag 481 
\p{Separator} 122 
server VM 236 
set operations (see class, set operations) 
Sethi, Ravi 180 


Java 110 

Perl 110 
simple quantifier optimization 247-248 
single quotes delimiter 292, 319 
Singleline(.NET) 408, 420, 427 
single-quoted string PHP 444 
\p{Sk} 123 
‘\p{Sm} 123 | 
small quantifier equivalence 251-252 
\p{So} 123 
\p{Space_Separator} 123 
\p{Spacing_Combining_Mark} 123 
span (see: mode-modified span; literal- 

text mode) 

“special” 263-266 
Spencer, Henry 88, 182-183, 243 
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split 
with capturing parentheses 
.NET 409, 426 
Perl 326 
PHP 468 
chunk limit 
Java 396 
Perl 323 
PHP 466 
into characters 322 
Java 395-396 
limit 466-467 
Java 396 
Perl 323 
PHP 466 
Perl 321-326 
PHP 465-469 


trailing empty items 324, 468 
_ whitespace 325 
split method 395-396 
Split (Regex object method) 425-426 
B 111, 128, 290 
stacked data 456 
standard formula for matching delimited 
text 196 
Star 
backtracking 162 
greedy 141, 447 
introduced 18-20 
| lazy 141 
| possessive 142 
start method 377 
start of match (see \G) 
start of word (see word boundaries) 
Start-of-line/string (see anchor, caret) 
Start-of-string anchor optimization 246, 
255-256, 315 


states (see also backtracking, saved states) 
flushing (see: atomic grouping; look- 
around; possessive quantifiers) 


stclass ‘list’ 362 
stock pricing example 51-52, 167-168 
with alternation 175 
with atomic grouping 170 
with possessive quantifier 169 
Strict (Option) 415 
strict pragma 295, 336, 345 
String 
matches 376 
replaceAll 378 
replaceFirst 379 
split 395 





string (see also line) 

double-quoted (see double-quoted 
string example) 

initial string discrimination 245-248, 
252, 257-259, 332, 361 

vs. line 55 

match position (see pos) 

pos (see pos) 


StringBuffer 373, 380, 382, 397 


StringBuilder 373, 382, 397 





C# 103 
Emacs 101 
Java 102 
PHP 103-104 
Python 104 
as regex 101-105, 305 
Tel 104 
VB.NET 103 
stripping whitespace 199-200 
str_replace 458 
PHP 458 
study PHP 447 
study 359-360 
when not to use 359 
subexpression defined 29 
subroutines regex 476 
substitution xvii 
delimiter 319 
s/./-/ 50, 318-321 
(see also search and replace) 
substring initial substring discrimination 
245-248, 252, 257-259, 332, 361 
subtraction 
character class 406 
class (set) 126 
class (simple) 125 
success 
Group object method 430 
Match object method 427 
Sun’s regex package (see 
java.util.regex) 
super-linear (see neverending match) 
super-linear short-circuiting 250 
\p{Symbol} 122 
Synchronized Match object method 430 
syntax class Emacs 128 
System.currentTimeMillis() 236 
System.Reflection 435 
System.Text.RegularExpressions 413, 
415 
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\t 49, 115-116 
introduced 44 
tag 
matching 200-201 
XML 481 
tag-team matching 132, 315 
\p{Tamil} 124 
Tcl 
[:<:] 91 
benchmarking 239 
dot 111, 113 
flavor overview 92 
hand-tweaking 243, 259 
line anchors 113, 130 
mode modifiers 135 
regex implementation 183 
regsub 100 
search and replace 100 
strings 104 
version covered 91 
word boundaries 134 
‘temperature conversion example 
Java 382 
.NET 425 
Perl 37, 283 
PHP 444 
terminators (see line terminators) 
testing engine type 146-147 
text method 394 
text-directed matching 153 
(see also DFA) 
regex appearance 162 
text-to-HTML example 67-77 
\p{Thai} 122 
then (see conditional) 
theory of an NFA 180 
There’s more than one way to doit 349 
this|that example 133, 139, 243, 
245-247, 252, 255, 260-261 
Thompson, Ken 85-86, 111 
thread scheduling Java benchmarking 236 
\p{Tibetan} 124 
tied variables 299 
time() 242 
time of day 26 
‘Time::HiRes 232, 358, 360 
Time.new 238 
Timer() 237 
timezone PHP 235 
title case 110 
i\p{Titlecase_Letter} 123 
TiVo 3 








tokenizer 132, 389, 399 
building 315 
toMatchResult method 377 
toothpicks scattered 101 
tortilla 128 
ToString 
Group object method 430 
Match object method 427 
Regex object method 427 


toString method 393-394 


Traditional NFA testing for 146-147 
trailing context 182 
transmission (see also \G) 
optimizations 246-247 
transparent bounds 387 
Java 387 
Tubby 265 
typographical conventions xxi 


\u 117, 290, 406 
\u 117 
\U.-\E 290 
inhibiting 292 
uc 290 
U+coB5 107 
ucfirst 290 
UCS-2 encoding 107 
UCS-4 encoding 107 
Ullman, Jeffrey 180 
\p{Unassigned} 123, 125 
Perl 288 
unconditional caching 350 
underscore in \w history 89 
Unescape 433 


‘Unicode 


block 124 

Java 369, 402 

.NET 407 

Perl 288 
categories (see Unicode, properties) 
character 

combining 107, 120, 122 
code point 

beyond U+FFFF 109 

introduced 107 

multiple 108 

unassigned in block 124 
combining character 107, 120, 122 
Java 368-369, 402-403 
line terminators 109-111, 370 

Java 370 
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Unicode (cont'd) ‘username example 73, 76, 98 


loose matching (see case-insensitive | plucking from text 71-73 
mode) in URL 74-77 
.NET 407 useTransparentBounds method 387 
official web site 127 using System.Text.RegularExpres- 
overview 106-110 sions 416 
Perl 288 UTF-16 encoding 107 
| PHP 442, 447 UTF-8 encoding 107, 442, 447 
| 


Properties 121，369 
(see also \p{..}) | | 
Java 368 Aw 115-116, 364 


list 122-123 \v 364 
\p{Al1} 125, 288 Value 
\p{Any} 125, 288, 442 Group object method 430 
\p{Assigned} 125-126, 288 | Match object method 427 
| Perl 288 variable names example 24 
| PHP 442 variables 
| \p{Unassigned} 123, 125, 288 after match 
script 122 pre-match copy 355 
Perl 288 binding 339 
PHP 442 fully qualified 295 
Version 3.1 109 interpolation 344 
\w 120 naughty 356 
whitespace and /x 288 tied 299 
UnicodeData.txt 290 VB.NET xvii 
unicore 290 code example 204, 219 
unmatch 152, 161, 163 comments 99 


atomic grouping 171 strings 103 


.+ 165 regex approach 96-97 
unrolling the loop 261-276 | 


(see also .NET) 








| example 270-271, 477 verbatim strings 103 
| general pattern 264 Version 7 regex 183 
\p{Uppercase Letter} 123 Version 8 regex 183 
URL encoding 320 version covered 
URLexample 74-77, 201-204, 208, 260, Java 365 
| 303-304, 306, 320, 450-451 | .NET 405 
egrep 25 | Perl 283 
Java 209 | PHP 440 
.NET 204 others 91 
plucking 206-208 version history Java 365, 368-369, 392, 
use charnames 290 | 401 
use Config 290, 299 vertical tab 109, 370 
use English 357 Perl \s 288 
use overload 342 vi after-match data 138 
(see also regex overloading) Vietnamese text processing 29 
use re ‘debug’ 361, 363 virtual machine 236 
use re ‘eval’ 337 Visual Basic xvii 
use strict 295, 336, 345 (see also VB.NET) 
use Time::HiRes 358, 360 (see also .NET) 
use warnings 326, 363 Visual Studio .NET 434 
useAnchoringBounds method 388 VM 236 
usePattern method 393, 399 Java 236 


| warming up 236 
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void context 294 
VT 109, 370 


$*w 297 
\w 49, 65, 120 
Emacs 129 
Java 368 
many different interpretations 93 
Perl 288 
= PHP 120, 442 
\w 49, 121 
Wall, Larry 88-90, 140, 363 
warming up Java VM 236 
warnings 296 
($*w variable) 
Perl 297 
Perl 38 
temporarily turning off 297 
use warnings 
Perl 326, 363 
warnings pragma 326, 363 
while vs. foreach vs. if 320 
whitespace 
allowing optional 18 
removing 199-200 
width attribute Java example 397 
wildcards filename 4 
word anchor mechanics of matching 150 
word boundaries 133 
\<...\> 
egrep 15 
introduced 15 
Java 134 
many programs 134 
mimicking 66, 134, 341-342 
.NET 134 
Perl 288 
PHP 134 
www.cpan.org 358 
www.PeakWebbosting.com xxiv 
www.regex.info 358 
wwwunixwiz.net xxiv, 458 





\x 108, 120 
/x 135, 288 
(see also: comments and free-spacing 
mode; mode modifier) 
history 90 
| introduced 72 
| (2x) (see: comments and free-spacing 
| mode; mode modifier) 





\x 117, 406 

Perl 286 
XML 483 

CDATA 483 
XMLexample 481-484 


-y old grep 86 

¥ 124 , 

Yahoo! xxiv, 74, 132, 190, 206-207, 258, 
314, 397 


\Z 112, 129-130 
(see also enhanced line-anchor mode) 
Java 370 
optimization 246 
\p{Z} 121-122, 368, 407 
\z 112, 129-130, 316, 447 
(see also enhanced line-anchor mode) 
| Optimization 246 
| PHP 442 
Zawodny, Jeremy 258 
zero-width assertions (see: anchor; look- 
ahead; lookbehind) 
ZIP code example 209-212 
\p{Z1} 123 
Zmievski, Andrei xxiv, 440 
\p{Zp} 123 
\p{Zs} 123 
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O’Reilly Media，Inc. 介 绍 


为 了 满足 谈 者 对 网 络 和 软件 技术 知识 的 迫切 需求 ， 世 界 萌 名 计算 机 图 书 出 版 机 构 O’Reilly Media, Inc. 
授权 电子 工业 出 成 社 ， 翻 译 出 版 一 批 该 公司 久负盛名 的 英文 经 典 技 术 专 和 闭 。 

O’Reilly Media，Inc. 是 世界 上 在 Unix、X、Internet 和 其 他 开放 系统 网 书 领域 具有 领导 地 位 的 出 版 公 
司 ， 同 时 也 是 在 线 出 版 的 先锋 。 

从 最 畅销 的 《The Whole Internet User’s Guide&Catalog) 《〈 被 纽约 公共 图 书馆 评 为 20 世 纪 最 重要 的 50 本 
书 之 一 ) 到 GNN (最 早 的 Internet 门户 和 商业 网 站 ) ， 再 到 WebSite (第 一 个 加 面 PC 的 Web 服 务 器 软 
件 ) , O’Reilly Media，Inc. 一 直 处 于 Internet 发 展 的 最 前 沿 。 

许多 书店 的 反馈 表明 ，O”Reilly Media，Inc. 是 最 稳定 的 计算 机 图 书 出 版 商 每 一 本 书 都 一 版 再 版 。 
与 大 多 数 计算 机 图 书 出 版 商 相 比 ，O’Reilly Media，Inc. 具 有 深厚 的 计算 机 专业 背景 ， 这 使 得 O’Reilly 
Media，Inc. 形 成 了 一 个 非常 不 同 于 其 他 出 版 商 的 出 版 方针 。O’Reilly Media，Inc. 所 有 的 编辑 人 员 以 前 都 是 
程序 员 ， 或 者 是 顶尖 级 的 技术 专家 。O’Reilly Media，Inc. 还 有 许多 固定 的 作者 群体 一 一 他 们 本 身 是 相关 领 
域 的 技术 专家 、 咨 询 专 家 ， 而 现在 编写 著作 ，O':Reilly Media，Inc. 依 靠 他 们 及 时 地 推出 图 书 。 因 为 
O’Reilly ”Media，Inc. 紧 密 地 与 计算 机 业界 联系 着 ， 所 以 O’Reilly Media，Inc. 知 道 市 场 上 真正 需要 什么 图 
Te 
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欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 


Linux 公 社 (www.Linuxidc.com) 于 2006 年 9 月 25 日 注册 并 开通 网 站 ，Linux 现 在 已 经 成 为 
一 种 广 受 关 注 和 支持 的 一 种 操作 系统 ，IDC 是 互联 网 数据 中 心 ，LinuxIDC 就 是 关于 Linux 
的 数据 中 心 。 


Linux 人 公社 是 专业 的 Linux 系 统 门 户 网 站 ， 实 时 发 布 最 新 Linux 资 讯 ， 包 括 Linux、Ubuntu、 
Fedora、 了 RedHat、 红 旗 Linux、Linux 教 程 、Linux 认 证 、SUSE Linux. Android. Oracle, 
Hadoop, CentOS, MySQL, Apache, Nginx, Tomcat, Python, Java, CEF. 


OpenStack、 集 群 等 技术 。 

Linux 公 社 (LinuxIDC.com) 设置 了 有 一 定 影 啊 力 的 Linux 专 题 栏 目 。 
Linux 公 社 主 站 网 址 : www.linuxidc.com 

Linux 公 社 资源 站 网 址 : linux.linuxidc.com 


Linux 公 社 手 机 站 网 址 : m.linuxidc.com 
旗下 网 站 : www.linuxidc.net 


包括 : Ubuntu 专题 Fedora 专题 Android 专题 Oracle 专题 Hadoop 专题 
RedHat 专题 SUSE 专题 红旗 Linux 专题 CentOS 专题 


和 用 -IIUIXK 公 社 
www.Linuxidc.com 


Linux 公社 微 信 公众 与 : linuxidc com 








